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了》 “ 艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西 
ee te et pn ng har 
的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 、 独 领 风 驭 。 在 
商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 
科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 
科学 著作 ， 不 仅 壁 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 
规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 


近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅猛 ， 
对 专业 人 才 的 需求 日 益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 
也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 在 我 国信 息 
技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 
十 年 间 积淀 和 发 展 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 
国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作 
用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 


机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 
年 开始 ， 我 们 就 将 工作 重点 放 在 了 艇 选 、 移 译 国 外 优秀 教材 上。 经 过 多 
年 的 不 懈 努 力 ， 我 们 与 Pearson，McGraw-Hill，Elsevier，MIT，jJohn 
Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 
他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum，Bjarne Strous- 
trup, Brian W. Kernighan，Dennis Ritchie, Jim Gray，Afred V. Aho, John E 
. Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, William Stallings， 
Donald E. Knuth，John L. Hennessy，Larry L. Peterson 等 大 师 名 家 的 一 
批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 
珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 


“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 
专家 不 仅 提供 了 中 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 
而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 
作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品种 ， 这 些 书 籍 在 读 
者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 其 影印 
版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 


让 苇 荡 丢 于 


IV 


权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 图 
书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 
教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反 
人 馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢 迎 老师 和 读者 对 我 们 的 工作 提出 
建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : 
电子 邮件 : 
联系 电话 : 
联系 地 址 : 
邮政 编码 : 


www. hzbook. com === 
hzjsj@ hzbook. com 理 s 
(010)88379604 

华章 教育 
上 京 市 西城 区 主 南 街 1 号 了 
人 华章 科技 图 书 出 版 中 心 
100037 


A 温 莉 芳 女 士 邀 我 为 即将 出 版 的 《Computer Systems: A 
下 一 Programmers Perspective》 第 3 版 的 中 文 译 本 《深入 理解 计算 机 系 
统 》 写 个 序 ， 出 于 两 方面 的 考虑 ， 欣 然 允 之 。 


一 是 源 于 我 个 人 的 背景 和 兴趣 。 我 长 期 从 事 软件 工程 和 系统 软件 领 
域 的 研究 ， 对 计算 机 学 科 的 认识 可 概括 为 两 大 方面 : 计算 系统 的 构建 和 
基于 计算 系统 的 计算 技术 应 用 。 出 于 信息 时 代 国 家 掌握 关键 核心 技术 的 
重大 需求 以 及 我 个 人 专业 的 本 位 视角 ， 我 一 直 对 系统 级 技术 的 研发 给 予 
更 多 关注 ， 由 于 这 种 “偏爱 ”和 研究 习惯 的 养 成 ， 以 至 于 自己 在 面 对 非 本 
专业 领域 问题 时 ， 也 常常 喜欢 从 “系统 观 ” 来 看 待 问题 和 解决 问题 。 我 自 
己 也 和 《深入 理解 计算 机 系统 有 过 “亲密 接触 "。2012 年 ， 我 还 在 北京 大 
学 信息 科学 技术 学 院 院 长 任 上 ， 学 院 从 更 好 地 培养 适应 新 技术 、 发 展 具 
有 系统 设计 和 系统 应 用 能 力 的 计算 机 专门 人 才 出 发 ， 在 调查 若干 国外 高 
校 计算 机 学 科 本 科 生 教学 体系 基础 上 ， 决 定 加 强 计 算 机 系统 能 力 培养 ， 
在 本 科 生 二 年 级 增设 了 一 门 系统 级 课程 ， 即 “计算 机 系统 导论 ”。 其 时 ， 
学 校正 在 倡导 小 班 课 教 学 模式 ， 这 门 课 也 被 选 为 学 院 的 第 一 个 小 班 课 教 
学 试点 。 为 了 体现 学 院 的 重视 ， 我 亲自 担任 了 这 门 课 的 主持 人 ， 带 领 一 
个 18 人 组 成 的 “豪华 ”教学 团队 负责 该 课程 的 教学 工作 ， 将 学 生 分 成 14 
个 小 班 ， 每 个 小 班 不 超过 15 人 。 同 时 ， 该 课程 涉及 教师 集体 备课 组 合 授 
课 、 大 班 授课 基础 上 的 小 班 课 教学 和 讨论 、 定 期 教学 会 议 、 学 生 自主 习 
题 课 和 实验 课 等 新 教学 模式 的 探索 ， 其 中 一 项 非常 重要 的 举措 就 是 选用 
了 卡 内 基 - 梅 隆 大 学 Randal E. Bryant 教授 和 David R. O'Hallaron 教授 编写 
,的 《Computer Systems: A Programmer's Perspective》( 第 2 版 ) 作 为 教材 。 虽 
然 这 门 课 程 我 只 主持 了 一 次 ， 但 对 这 本 教材 的 印象 颇 深 颇 佳 。 


二 是 源 于 我 和 华章 公司 已 有 的 良好 合作 和 相互 了 解 。2000 年 前 后 ， 
我 先后 翻译 了 华章 公司 引进 (机 械 工业 出 版 社 出 版 ) 的 Roger Pressman 编 
写 的 Software Engineering: A Practitioner's Approach) 一 书 的 第 4 版 和 第 
5 版 。 其 后 ， 在 计算 机 学 会 软件 工程 专业 委员 会 和 系统 软件 专业 委员 会 的 
诸多 学 术 活 动 中 也 和 华章 公司 及 温 莉 芳 女 士 本 人 有 不 少 合 作 。 近 二 十 年 
来 ， 华 章 公 司 的 编辑 们 引进 出 版 了 大 量 计算 机 学 科 的 优秀 教材 和 学 术 著 
作 ， 对 国内 高 校 计算 机 学 科 的 教学 改革 起 到 了 积极 的 促进 作用 ， 本 书 的 
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翻译 出 版 仍 是 这 项 工作 的 延续 。 这 是 一 项 值得 褒扬 的 工作 ,我 也 想 借 此 机 会 代表 计算 机 界 同 仁 
表达 对 华章 公司 的 感谢 ! 


计算 机 系统 类 别 的 课程 一 直 是 计算 机 科学 与 技术 专业 的 主要 教学 内 容 之 一 。 由 于 历史 原 
因 ， 我国 的 计算 机 专业 的 课程 体系 曾 广 泛 参考 ACM 和 IEEE 制订 的 计算 机 科学 与 技术 专业 教 
学 计划 (Computing Curricula) 设 计 ， 计算 机 系统 类 课程 也 参照 该 计划 分 为 汇编 语言 、 操 作 系 统 、 
组 成 原理 、 体 系 结构 、 计 算 机 网 络 等 多 门 课程 。 应 该 说 ， 该 课程 体系 在 历史 上 对 我 国 的 计算 机 
专业 教育 起 了 很 好 的 引导 作用 。 


进入 新 世纪 以 来 ,计算 技术 发 生 了 重要 的 发 展 和 变化 ， 我 国 的 信息 技术 和 产业 也 得 到 了 迅 
猛 发 展 ， 对 计算 机 专业 的 毕业 生 提 出 了 更 高 要 求 。 重 新 审视 原来 我 们 参照 ACM/IEEE 计算 机 
专业 计划 的 课程 体系 ， 会 发 现存 在 以 下 几 个 方面 的 主要 问题 。 


1) 课程 体系 中 缺乏 一 门 独立 的 能 够 贯穿 整个 计算 机 系统 的 基础 课程 。 计 算 机 系统 方面 的 
基础 知识 被 分 成 了 很 多 门 独立 的 课程 ， 课 程 内 容 彼此 之 间 缺 乏 关 联 和 系统 性 。 学 生 学 习 之 后 ， 
虽然 在 计算 机 系统 的 各 个 部 分 理解 了 很 多 概念 和 方法 ， 但 往往 会 忽视 各 个 部 分 之 间 的 关联 ， 难 
以 系统 性 地 理解 整个 计算 机 系统 的 工作 原理 和 方法 。 

2) 现 有 课程 往往 偏重 理论 ， 和 实践 关联 较 少 。 如 现 有 的 系统 课程 中 通常 会 介绍 函数 调用 
过 程 中 的 压 栈 和 退 栈 方式 ,但 较 少 和 实践 关联 来 理解 压 栈 和 退 栈 过 程 的 主要 作用 。 实 际 上 ， 压 
栈 和 退 栈 与 理解 C 等 高 级 语言 的 工作 原理 息息相关 ， 也 是 常用 的 攻击 手段 Buffer Overflow 的 
主要 技术 基础 。 

3) 教学 内 容 比较 传统 和 陈旧 ， 基 本 上 是 早期 PC 时 代 的 内 容 。 比 如 ， 现 在 的 主流 台式 机 
CPU 都 已 经 是 x86-64 指令 集 ， 但 较 多 课程 还 在 教授 80386 甚至 更 早 的 指令 集 。 对 于 近年 来 出 
现 的 多 核 / 众 核 处 理 器 、SSD 硬盘 等 实际 应 用 中 遇 到 的 内 容 更 是 涉及 较 少 。 

4) 课程 大 多 数 从 设计 者 的 角度 出 发 ， 而 不 是 从 使 用 者 的 角度 出 发 。 对 于 大 多 数学 生来 说 ， 
毕业 之 后 并 不 会 成 为 专业 的 CPU 设计 人 员 、 操 作 系 统 开发 人 员 等 ， 而 是 会 成 为 软件 开发 工程 
师 。 对 他 们 而 言 ， 最 重要 的 是 理解 主流 计算 机 系统 的 整体 设计 以 及 这 些 设 计 因素 对 于 应 用 软件 
开发 和 运行 的 影响 。 


这 本 教材 很 好 地 克服 了 上 述 传统 课程 的 不 足 ， 这 也 是 当初 北大 计算 机 学 科 本 科 生 教学 改革 
时 选择 该 教材 的 主要 考量 。 其 一 ， 该 教材 系统 地 介绍 了 整个 计算 机 系统 的 工作 原理 ， 可 帮助 学 
生 系 统 性 地 理解 计算 机 如 何 执行 程序 、 存 储 信息 和 通信 ; 其 二 ， 该 教材 非常 强调 实践 ， 全 书包 
括 9 个 配套 的 实验 ， 在 这 些 实验 中 ， 学 生 需 要 攻破 计算 机 系统 、 设 计 CPU、 实 现 命 令 行 解释 
器 、 根 据 缓存 优化 程序 等 ， 在 新 鲜 有 趣 的 实验 中 理解 系统 原理 ， 培 养 动手 能 力 ; 其 三 ， 该 教材 
紧 跟 时 代 的 发 展 。 加 入 了 x86-64 指令 集 、Intel Core i7 的 虚拟 地 址 结构 、SSD 磁盘 、IPv6 等 新 
技术 内 容 ; 其 四 . 该 教材 从 程序 员 的 角度 看 待 计算 机 系统 ， 重 点 讨论 系统 的 不 同 结构 对 于 上 层 
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应 用 软件 编写 、 执 行 和 数据 存储 的 影响 ， 以 培养 程序 员 在 更 广阔 空间 应 用 计算 机 系统 知识 的 
能 力 。 


基于 该 教材 的 北大 “计算 机 系统 导论 ”课程 实施 已 有 五 年 ， 得 到 了 学 生 的 广泛 赞誉 ， 学 生 们 
通过 这 门 课 程 的 学 习 建 立 了 完整 的 计算 机 系统 的 知识 体系 和 整体 知识 框架 ， 养 成 了 良好 的 编程 
习惯 并 获得 了 编写 高 性 能 、 可 移植 和 健壮 的 程序 的 能 力 ， 莫 定 了 后 续 学 习 操 作 系 统 、 编 译 、 计 
算 机 体系 结构 等 专业 课程 的 基础 。 北 大 的 教学 实践 表明 ， 这 是 一 本 值得 推荐 采用 的 好 教材 。 


该 书 的 第 3 版 相对 于 第 2 版 进行 了 较 大 程度 的 修改 和 扩充 。 第 3 版 从 一 开始 就 采用 最 新 
x86-64 架构 来 贯穿 各 部 分 知识 ， 在 内 存 技术 、 网 络 技术 上 也 有 一 系列 更 新 ， 并且 重 组 了 之 前 的 
一 些 比较 难 懂 的 内 容 。 我 相信 ， 该 书 的 出 版 ， 将 有 助 于 国内 计算 机 系统 教学 的 进一步 改进 ,为 


培养 从 事 系 统 级 创新 的 计算 机 人 才 葛 定 很 好 的 基础 。 
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2 002 年 8 月 本 书 第 1 版 首次 印刷 。 一 个 月 之 后 ， 我 在 复旦 大 学 软件 学 
院 开设 了 “计算 机 系统 基础 ”课程 ， 成 为 国内 第 一 个 采用 这 本 教材 授 
课 的 老师 。 这 本 教材 有 四 个 特点 。 第 一 ， 涉 及 面 广 ， 覆 盖 了 二 进 制 、 汇 
编 、 组 成 、 体 系 结构 、 操 作 系 统 、 网 络 与 并 发 程序 设计 等 计算 机 系统 最 
重要 的 方面 。 第 二 ， 具 有 相当 的 深度 ， 本 书 从 程序 出 发 逐步 深入 到 系统 
领域 的 重要 问题 ， 而 非 点 到 为 止 ， 学 完 本 书后 读者 可 以 很 好 地 理解 计算 
机 系统 的 工作 原理 。 第 三 ， 它 是 面向 低 年 级 学 生 的 教材 ， 在 过 去 的 教学 
体系 中 这 本 书 所 涉及 的 很 多 内 容 只 能 在 高 年 级 讲授 ， 而 本 书 通过 合理 的 
安排 将 计算 机 系统 领域 最 核心 的 内 容 巧 妙 地 展现 给 学 生 ( 例 如 ， 不 需要 掌 
握 逻 辑 设计 与 硬件 描述 语言 的 完整 知识 ， 就 可 以 体验 处 理 器 设计 )。 第 
四 ， 本 书 配备 了 非常 实用 、 有 趣 的 实验 。 例 如 ， 模 仿 硬 件 仅 用 位 操作 完 
成 复杂 的 运算 ,模仿 tracker 和 hacker 去 破解 密码 以 及 攻击 自身 的 程序 ， 
设计 处 理 器 ,实现 简单 但 功能 强大 的 Shell 和 Proxy 等 。 这 些 实验 既 强 化 
了 学 生 对 书本 知识 的 理解 ， 也 进一步 激发 了 学 生 探究 计算 机 系统 的 热情 。 


以 低 年 级 开设 “深入 理解 计算 机 系统 ”课程 为 基础 ， 我 先后 在 复旦 大 
学 和 上 海 交 通 大 学 软件 学 院 主 导 了 激进 的 教学 改革 。 必 修 课时 被 大 量 压 
缩 ， 现 在 软件 工程 专业 必修 课 由 问题 求解 、 计 算 机 系统 基础 、 应 用 开发 
基础 、 软 件 工 程 四 个 模块 9 门 课 构 成 。 其 他 传统 的 必修 课 如 操作 系统 、 
编译 原理 、 数 字 逻 辑 等 都 成 为 方向 课 。 课 程 体系 的 变化 ,减少 了 学 生 修 
读 课程 的 总 数 和 总 课时 ， 因 而 为 大 幅度 增加 实验 总 量 、 提 高 实验 难度 和 
强度 、 增 强 实验 的 综合 性 和 创新 性 提供 了 有 力 保障 。 现 在 我 的 课题 组 的 
青年 教师 全 部 是 首 批 经 历 此 项 教学 改革 的 学 生 。 本 科 的 扎实 基础 为 他 们 
从 事 系 统 软 件 研 究 打 下 了 良好 基础 ， 他 们 实现 了 亚洲 学 术 界 在 操作 系统 
旗舰 会 议 SOSP 上 论文 发 表 零 的 突破 ,目前 研究 成 果 在 国际 上 具有 和 较 大 
的 影响 力 。 师 资 力量 的 补充 ， 又 为 全 面 推进 更 加 激进 的 教学 改革 创造 了 
条 件 。 


本 书 的 出 版 标志 着 国际 上 计算 机 教学 进入 了 第 三 阶段 。 从 历史 来 看 ， 
国际 上 计算 机 教学 先后 经 历 了 三 个 主要 阶段 。 第 一 阶段 是 上 世纪 70 年 代 
中 期 至 80 年 代 中 期 ， 那 时 理论 、 技 术 还 不 成 熟 ， 系 统 不 稳定 ， 因 此 教材 
主要 围绕 若干 重要 问题 讲授 不 同 流派 的 观点 ， 学 生 解 决 实际 问题 的 能 力 


IX 


不 强 。 第 二 阶段 是 上 世纪 80 年 代 中 期 至 本 世纪 初 ， 当 时 计算 机 单机 系统 的 理论 和 技术 已 逐步 
趋 于 成 熟 ， 主 流 系 统 稳定 ， 因 此 教材 主要 围绕 主流 系统 讲解 理论 和 技术 ， 学 生 的 理论 基础 扎 
实 ， 动 手 能 力 强 。 第 三 阶段 从 本 世纪 初 开始 ， 主 要 背景 是 随 着 互联 网 的 兴起 ， 信 息 技术 开始 渗 
透 到 人 类 工作 和 生活 的 方方面面 。 技 术 爆 炸 迫 使 教学 者 必须 重 构 传统 的 以 计算 机 单机 系统 为 主 
导 的 课程 体系 。 新 的 体系 大 面积 调整 了 核心 课程 的 内 容 。 核 心 课程 承担 了 帮助 学 生 构 建 专业 知 
识 框架 的 任务 ， 为 学 生 在 毕业 后 相当 长 时 间 内 的 专业 发 展 莫 定 坚实 基础 。 现 在 一 般 认为 问题 抽 
象 、 系 统 抽 象 和 数据 抽象 是 计算 机 类 专业 毕业 生 的 核心 能 力 。 而 本 书 担负 起 了 系统 抽象 的 重 
任 ， 因 此 美国 的 很 多 高 校 都 采用 了 该 书 作为 计算 机 系统 核心 课程 的 教材 。 第 三 阶段 的 教材 与 第 
二 阶段 的 教材 是 互补 关系 。 第 三 阶段 的 教材 主要 强调 坚实 而 宽广 的 基础 ， 第 二 阶段 的 教材 主要 
强调 深入 系统 的 专门 知识 ， 因 此 依然 在 本 科 高 年 级 方向 课 和 研究 生 专业 课 中 占据 重要 地 位 。 


上 世纪 80 年 代 初 ， 我 国 借 鉴 美国 经 验 建 立 了 自己 的 计算 机 教学 体系 并 引进 了 大 量 教 材 。 
从 21 世纪 初 开始 ， 一 些 学 校 开 始 借鉴 美国 第 二 阶段 的 教学 方法 ， 采 用 了 部 分 第 二 阶段 的 著名 
教材 ， 这 些 改革 正在 走向 成 熟 并 得 以 推广 。2012 年 北京 大 学 计算 机 专业 采用 本 书 作为 教材 后 ， 
采用 本 教材 开设 "计算 机 系统 基础 ”课程 的 高 校 快 速 增加 。 以 此 为 契机 ， 国 内 的 计算 机 教学 也 有 
望 全 面 进入 第 三 阶段 。 


本 书 的 第 3 版 完全 按照 x86-64 系统 进行 改写 。 此 外 ， 第 2 版 中 删除 了 以 x87 呈现 的 浮 点 指 
令 ， 在 第 3 版 中 浮 点 指令 又 以 标量 AVX2 的 形式 得 以 恢复 。 第 3 版 更 加 强调 并 发 ， 增 加 了 较 大 
篇 幅 用 于 讨论 信号 处 理 程序 与 主 程序 间 并 发 时 的 正确 性 保障 。 总 体 而 言 ， 本 书 的 三 个 版 本 在 结 
构 上 没有 太 大 变化 ， 不 同 版 本 的 出 现 主要 是 为 了 在 细节 上 能 够 更 好 地 反映 技术 的 最 新 变化 。 


当然 本 书 的 某 些 部 分 对 于 初学 者 而 言 还 是 有 些 难 以 阅读 。 本 书 涉及 大 量 重要 概念 ,但 一 些 
概念 首次 亮相 时 并 没有 编排 好 顺序 。 例 如 寄存 器 的 概念 、 汇 编 指令 的 顺序 执行 模式 、PC 的 概 
念 等 对 于 初学 者 而 言 非 常 陌 生 ， 但 这 些 介 绍 仅仅 出 现在 第 1 章 的 总 览 中 ， 而 当 第 3 章 介 绍 汇编 
时 完全 没有 进一步 的 展开 就 假设 读者 已 经 非常 清楚 这 些 概念 。 事 实 上 这 些 概念 原本 就 介绍 得 过 
于 简单 ， 短 暂 亮相 之 后 又 立即 退场 ， 相 隔 较 长 时 间 后 ， 当 这 些 概 念 再 次 登场 时 ， 初 学 者 早已 忘 
却 了 它们 是 什么 。 同 样 ， 第 8 章 对 进程 、 并 发 等 概念 的 介绍 也 存在 类 似 问题 。 因 此 ， 中 文 翻译 


版 将 配备 导读 部 分 ， 希 望 这 些 导 读 能 够 帮助 初学 者 顺利 阅读 。 
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经 是 原 书 第 3 版 了 。 第 3 版 还 是 采用 以 下 组 合 方式 : 在 经 典 的 
x86 架构 机 器 上 运行 Linux 操作 系统 ， 采 用 C 语言 编程 。 这 样 的 组 合 经 受 
住 了 时 间 的 考验 。 这 一 版 的 一 个 明显 变化 就 是 从 讲解 IA32 和 x86-64 转变 
为 完全 以 x86-64 为 基础 ， 相 应 地 修改 了 第 3、4、5、6 和 7 章 。 同 时 ， 还 
改写 了 第 2 章 , 使 之 更 易 读 、 好 懂 ; 用 近期 的 新 技术 更 新 了 第 6、11 和 
12 章 。 这 些 变化 使 得 本 书 既 和 新 技术 保持 了 同步 ， 又 保留 了 描述 系统 本 
质 的 内 容 以 及 从 程序 员 角 度 出 发 的 特色 。 


Ee 1 版 出 版 于 2003 年 ,第 2 版 出 版 于 2011 年 ， 去 年 发 行 的 已 


除了 翻译 本 书 ， 我们 也 开始 以 本 书 为 教材 讲授 “计算 机 系统 基础 ” 课 
程 ， 对 这 本 书 的 理解 也 随 之 越 来 越 深入 ， 意 识 到 除了 阅读 之 外 ， 动 手 实 
践 更 是 学 习 计 算 机 系统 的 必 经 之 路 。 本 书 的 官网 提供 了 很 多 实验 作业 
(Lab Assignment)， 其 中 不 乏 有 趣 且 有 一 定 难度 的 实验 ， 比 如 Bomb Lab。 
有 兴趣 的 读者 除了 阅读 本 书 的 内 容 之 外 ， 还 应 该 试 着 去 完成 这 些 实验 ， 
让 纸 面 上 的 内 容 在 实际 动手 中 得 到 巩固 和 加 强 。 本 书 的 官方 博客 也 不 断 
更 新 着 有 关 这 本 书 和 配套 课程 的 最 新 变化 ， 这 也 是 对 本 书 的 有 益 补 充 。 


第 3 版 从 翻译 的 角度 来 说 ,我 们 尽量 做 到 更 流畅 ,更 符合 中 文 表达 
的 习惯 。 对 于 一 些 术语 ， 比 如 memory， 以 前 怕 出 错 就 统一 翻译 成 存储 
器 ， 现 在 则 尽 可 能 地 按照 语 境 去 区 分 ， 翻 译 成 内 存 或 者 存储 器 。 


在 此 ， 要 感谢 本 书 的 编辑 朱 动 、 姚 蔓 以 及 和 静 ， 有 她 们 的 支持 、 鼓 
励 和 耐心 细致 的 工作 ， 才 能 让 本 书 如 期 与 读者 见面 。 


由 于 本 书 内 容 多 ， 翻 译 时 间 紧 迫 ， 尽 管 我 们 尽量 做 到 认真 仔细 ,但 
还 是 难以 避免 出 现 错误 和 不 尽 如 人 意 的 地 方 。 在 此 欢迎 广大 读者 批评 指 
正 。 我 们 也 会 一 如 既往 地 维护 勘误 表 ， 及 时 在 网 上 更 新 , 方便 大 家 阅读 。 
(另外 ， 本 版 第 1 次 印刷 时 ,我 们 已 经 根据 官网 2016 年 3 月 1 日 前 发 布 的 
勘误 进行 了 修正 ， 就 不 在 中 文 勘误 中 再 翻译 了 ,) 


缆 奕 利 贺 莲 
2016 年 5 月 于 歼 珈 山 


书 (简称 CS:APP) 的 主要 读者 是 计算 机 科学 家 、 计 算 机 工程 师 ， 以 及 
那些 想 通过 学 习 计 算 机 系统 的 内 在 运作 而 能 够 写 出 更 好 程序 的 人 


我 们 的 目的 是 解释 所 有 计算 机 系统 的 本 质 概 念 ， 并 向 你 展示 这 些 概 
念 是 如 何 实 实在 在 地 影响 应 用 程序 的 正确 性 、 性 能 和 实用 性 的 。 其 他 的 
系统 类 书籍 都 是 从 构建 者 的 角度 来 写 的 ， 讲 述 如 何 实现 硬件 或 系统 软件 ， 
包括 操作 系统 、 编 译 器 和 网 络 接口 。 而 本 书 是 从 程序 员 的 角度 来 写 的， 
讲述 应 用 程序 员 如 何 能 够 利用 系统 知识 来 编写 出 更 好 的 程序 。 当 然 ， 学 

习 一 个 计算 机 系统 应 该 做 些 什么 ， 是 学 习 如 何 构建 一 个 计算 机 系统 的 很 
好 的 出 发 点 ， 所 以 ， 对 于 希望 继续 学 习 系 统 软 硬件 实现 的 人 来 说 ， 本 书 
也 是 一 本 很 有 价值 的 介绍 性 读物 。 大 多 数 系统 书籍 还 倾向 于 重点 关注 系 
统 的 某 一 个 方面 ， 比 如 : 硬件 架构 、 操 作 系 统 、 编 译 器 或 者 网 络 。 本 书 
则 以 程序 员 的 视角 统一 覆盖 了 上 述 所 有 方面 的 内 容 。 


如 果 你 研究 和 领会 了 这 本 书 里 的 概念 ， 你 将 开始 成 为 极 少数 的 “和 牛 
人 ”， 这 些 “ 牛 人 ”知道 事情 是 如 何 运作 的 ， 也 知道 当 事 情 出 现 故 障 时 如 
何 修 复 。 你 写 的 程序 将 能 够 更 好 地 利用 操作 系统 和 系统 软件 提供 的 功能 ， 
对 各 种 操作 条 件 和 运行 时 参数 都 能 正确 操作 ,运行 起 来 更 快 ， 并 能 避免 出 
现 使 程序 容易 受到 网 络 攻击 的 缺陷 。 同 时 ， 你 也 要 做 好 更 深入 探究 的 准备 ， 
研究 像 编译 器 、 计 算 机 体系 结构 、 操 作 系统 、 骨 入 式 系统 、 网 络 互联 和 网 络 
安全 这 样 的 高 级 题目 。 


读者 应 具备 的 背景 知识 

本 书 的 重点 是 执行 x86-64 机 器 代码 的 系统 。 对 英特尔 及 其 竞争 对 手 而 
言 ，x86-64 是 他 们 自 1978 年 起 ， 以 8086 微 处 理 器 为 代表 ， 不断 进化 的 最 新 
成 果 。 按 照 英特尔 微 处 理 器 产品 线 的 命名 规则 ， 这 类 微 处 理 器 俗称 为 “x86”。 
随 着 半导体 技术 的 演进 ， 单 芯片 上 集成 了 更 多 的 晶体 管 ， 这 些 处 理 器 的 计算 
能 力 和 内 存 容量 有 了 很 大 的 增长 。 在 这 个 过 程 中 ， 它 们 从 处 理 16 位 字 ， 发 展 
到 引入 IA32 处 理 器 处 理 32 位 字 ， 再 到 最 近 的 x86-64 处 理 64 位 字 。 


我 们 考虑 的 是 这 些 机 器 如 何在 Linux 操作 系统 上 运行 C 语言 程序 。 
Linux 是 众多 继承 自 最 初 由 贝尔 实验 室 开发 的 Unix 的 操作 系统 中 的 一 种 。 
这 类 操作 系统 的 其 他 成 员 包 括 Solaris、FreeBSD 和 MacOS X。 近 年 来 ， 


et 


了 咱 
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由 于 Posix 和 标准 Unix 规范 的 标准 化 努力 ， 这 些 操作 系统 保持 了 高 度 兼 容 性 。 因 此 ， 本 书 内 
容 几乎 直接 适用 于 这 些 “ 类 Unix” 操 作 系 统 。 


文中 包含 大 量 已 在 Linux 系统 上 编译 和 运行 过 的 程序 示例 。 我 们 假设 你 能 访问 一 台 这 样 的 
机 器 ,并且 能 够 登录 ， 做 一 些 诸如 切换 目录 之 类 的 简单 操作 。 如 果 你 的 计算 机 运行 的 是 Mi- 
crosoft Windows 系统 ， 我 们 建议 你 选择 安装 一 个 虚拟 机 环境 (例如 VirtualBox 或 者 VMWare)， 
以 便 为 一 种 操作 系统 (客户 OS) 编 写 的 程序 能 在 男 一 种 系统 (宿主 OS) 上 运行 。 


我 们 还 假设 你 对 C 和 C++ 有 一 定 的 了 解 。 如 果 你 以 前 只 有 Java 经 验 ， 那么 你 需要 付出 更 
多 的 努力 来 完成 这 种 转换 ， 不 过 我 们 也 会 帮助 你 。Java 和 C 有 相似 的 语法 和 控制 语句 。 不 过 ， 
有 一 些 C 语 言 的 特性 (特别 是 指针 、 显 式 的 动态 内 存 分 配 和 格式 化 IO) 在 Java 中 都 是 没有 的 。 
所 幸 的 是 ，C 是 一 个 较 小 的 语言 ， 在 Brian Kernighan 和 Dennis Ritchie 经 典 的 “K&R” 文 献 中 
得 到 了 清晰 优美 的 描述 [61]。 无 论 你 的 编程 背景 如 何 ， 都 应 该 考虑 将 K&R 作为 个 人 系统 藏书 
的 一 部 分 。 如 果 你 只 有 使 用 解释 性 语言 的 经 验 ， 如 Python、Ruby 或 Perl， 那 么 在 使 用 本 书 之 
前 ， 需 要 花费 一 些 时 间 来 学 习 C。 

本 书 的 前 几 章 揭示 了 C 语言 程序 和 它们 相对 应 的 机 器 语言 程序 之 间 的 交互 作用 。 机 器 语言 
示例 都 是 用 运行 在 x86-64 处 理 器 上 的 GNU GCC 编译 器 生成 的 。 我 们 不 需要 你 以 前 有 任何 硬 
件 、 机 器 语言 或 是 汇编 语言 编程 的 经 验 。 


和 6 是 二 这 轿 二 关于 C 编程 语言 的 建议 
为 了 帮助 C 语言 编 程 背景 薄弱 (或 全 无 背景 ) 的 读者 ， 我 们 在 书 中 加 入 了 这 样 一 些 专门 的 
注释 来 突出 C 中 一 些 特别 重要 的 特性 。 我 们 假设 你 熟悉 C++ 或 Java。 





如 何 阅读 此 书 

从 程序 员 的 角度 学 习 计算 机 系统 是 如 何 工作 的 会 非常 有 趣 ， 主 要 是 因为 你 可 以 主动 地 做 这 
件 事情 。 无 论 何 时 你 学 到 一 些 新 的 东西 ， 都 可 以 马上 试验 并 且 直 接 看 到 运行 结果 。 事 实 上 ， 我 
们 相信 学 习 系统 的 唯一 方法 就 是 做 (do) 系 统 ， 即 在 真正 的 系统 上 解决 具体 的 问题 ， 或 是 编写 和 
运行 程序 。 

这 个 主题 观念 贯穿 全 书 。 当 引入 一 个 新 概念 时 ， 将 会 有 一 个 或 多 个 练习 题 紧 随 其 后 ， 你 应 
该 马上 做 一 做 来 检验 你 的 理解 。 这 些 练习 题 的 解答 在 每 章 的 末尾 。 当 你 阅读 时 ， 尝 试 自己 来 解 
答 每 个 问题 ， 然 后 再 查阅 答案 ,看 自己 的 答案 是 否 正确 。 除 第 1 章 外 ， 每 章 后 面 都 有 难度 不 同 
的 家 庭 作 业 。 对 每 个 家 庭 作业 题 ， 我 们 标注 了 难度 级 别 : 


* 只 需要 几 分 钟 。 几 乎 或 完全 不 需要 编程 。 
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** 可 能 需要 将 近 20 分 钟 。 通 常 包括 编写 和 测试 一 些 代码 。( 许 多 都 源 自我 们 在 考试 中 出 
的 题目 。) 


炒米 


* 需要 很 大 的 努力 ， 也 许 是 1 一 2 个 小 时 。 一 般 包括 编写 和 测试 大 量 的 代码 。 
禁 一 个 实验 作业 ， 需 要 将 近 10 个 小 时 。 


文中 每 段 代码 示例 都 是 由 经 过 GCC 编译 的 C 程序 直接 生成 并 在 Linux 系统 上 进行 了 测试 ， 
没有 任何 人 为 的 改动 。 当 然 ， 你 的 系统 上 GCC 的 版 本 可 能 不 同 , 或 者 根本 就 是 另外 一 种 编译 
器 ， 那 么 可 能 生成 不 一 样 的 机 器 代码 ， 但 是 整体 行为 表现 应 该 是 一 样 的 。 所 有 的 源 程序 代码 都 
可 以 从 csapp. cs. cmu. edu 上 的 CS:APP 主页 上 获取 。 在 本 书 中 ， 源 程序 的 文件 名 列 在 两 条 水 平 线 的 
右边 ， 水 平 线 之 间 是 格式 化 的 代码 。 比 如 ， 图 1 中 的 程序 能 在 code/intro/ 目录 下 的 hello. c 文件 中 找 
到 。 当 遇 到 这 些 示 例 程序 时 ， 我 们 鼓励 你 在 自己 的 系统 上 试 着 运行 它们 。 





code/intro/hello.c 
#include <stdio.h> 


int main() 

{ 
printf("hello, world\n'); 
return 0; 


NmAAw PP 一 


code/intro/hello.c 
图 1 一 个 典型 的 代码 示例 
为 了 避免 本 书 体积 过 大 、 内 容 过 多 ， 我们 添加 了 许多 网 络 旁 注 (Web aside)， 包 括 一 些 对 
本 书 主要 内 容 的 补充 资料 。 本 书 中 用 CHAP:TOP 这 样 的 标记 形式 来 引用 这 些 旁 注 ， 这 里 
CHAP 是 该 章 主题 的 缩写 编码 ， 而 TOP 是 涉及 的 话题 的 缩写 编码 。 例 如 ， 网 络 旁 注 DATA: 
BOOL 包含 对 第 2 章 中 数据 表示 里 面 有 关 布 尔 代数 内 容 的 补充 资料 ; 而 网 络 旁 注 ARCH: 
VLOG 包含 的 是 用 Verilog 硬件 描述 语言 进行 处 理 器 设计 的 资料 ， 是 对 第 4 章 中 处 理 器 设计 部 
分 的 补充 。 所 有 的 网 络 旁 注 都 可 以 从 CS:APP 的 主页 上 获取 。 


国 了 什么 是 旁 注 

在 整 本 书 中 ， 你 将 会 遇 到 很 多 以 这 种 形式 出 现 的 旁 注 。 旁 注 是 附加 说 明 ， 能 使 你 对 当前 
讨论 的 主题 多 一 些 了 解 。 旁 注 可 以 有 很 多 用 处 。 一 些 是 小 的 历史 故事 。 例 如，C 语言 、 
Linux 和 Internet 是 从 何 而 来 的 ? 有 些 旁 注 则 是 用 来 洪 清 学 生 们 经 常 感到 疑 贡 的 问题 。 例 如 ， 
高 速 缓存 的 行 、 组 和 块 有 什么 区 别 9 还 有 些 旁 注 给 出 了 一 些 现实 世界 的 例子 。 例 如 ， 一 个 浮 
点 错误 怎么 锚 掉 了 法 国 的 一 枚 火箭 ， 或 是 给 出 市 面 上 出 信 的 一 个 磁盘 驱动 器 的 几何 和 运行 参 


数 。 最 后 ， 还 有 一 些 旁 注 仅仅 就 是 一 些 有 趣 的 内 容 ,， 例 如， 什么 是 “hoinky”? 
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本 书 概述 
本 书 由 12 章 组 成 ， 旨 在 阐述 计算 机 系统 的 核心 概念 。 内 容 概述 如 下 ， 


@ 第 1 章 :; 计算 机 系统 漫游 。 这 一 章 通过 研究 “hello，world” 这 个 简单 程序 的 生命 周期 ， 
介绍 计算 机 系统 的 主要 概念 和 主题 。 

@ 第 2 章 ; 信息 的 表示 和 处 理 。 我 们 讲述 了 计算 机 的 算术 运算 ， 重 点 描述 了 会 对 程序 员 有 
影响 的 无 符号 数 和 数 的 补 码 表示 的 特性 。 我 们 考虑 数字 是 如 何 表示 的 ， 以 及 由 此 确定 对 
于 一 个 给 定 的 字 长 ， 其 可 能 编码 值 的 范围 。 我 们 探讨 有 符号 和 无 符号 数字 之 间 类 型 转换 “ 
的 效果 ， 还 阐述 算术 运算 的 数学 特性 。 菜 鸟 级 程序 员 经 常 很 惊奇 地 了 解 到 (用 补 码 表示 的 ) 
两 个 正 数 的 和 或 者 积 可 能 为 负 。 另 一 方面 ， 补 码 的 算术 运算 满足 很 多 整数 运算 的 代数 特 
性 ， 因 此 ， 编 译 器 可 以 很 安全 地 把 一 个 常量 乘法 转化 为 一 系列 的 移 位 和 加 法 。 我 们 用 C 
语言 的 位 级 操作 来 说 明 布尔 代数 的 原理 和 应 用 。 我 们 从 两 个 方面 讲述 了 IEEE 标准 的 泽 点 
格式 : 一 是 如 何 用 它 来 表示 数值 ， 一 是 浮 点 运算 的 数学 属性 。 

对 计算 机 的 算术 运算 有 深刻 的 理解 是 写 出 可 靠 程序 的 关键 。 比 如 ， 程 序 员 和 编译 器 
不 能 用 表达 式 (x-y<0) 来 替代 (x<y)， 因 为 前 者 可 能 会 产生 溢出 。 甚 至 也 不 能 用 表达 式 
(-Yy<-x) 来 蔡 代 ， 因 为 在 补 码 表示 中 负数 和 正 数 的 范围 是 不 对 称 的 。 算 术 溢 出 是 造成 程 
序 错 误 和 安全 漏洞 的 一 个 常见 根源 ， 然 而 很 少 有 书 从 程序 员 的 角度 来 讲述 计算 机 算术 运 
算 的 特性 。 

@ 第 3 章 : 程序 的 机 器 级 表示 。 我 们 教 读者 如 何 阅读 由 C 编译 器 生成 的 x86-64 机 器 代码 。 
我 们 说 明 为 不 同 控制 结构 (比如 条 件 、 循 环 和 开关 语句 ) 生 成 的 基本 指令 模式 。 我 们 还 讲述 
过 程 的 实现 ， 包 括 栈 分 配 、 寄 存 器 使 用 惯例 和 参数 传递 。 我 们 讨论 不 同 数据 结构 (如 结构 、 
联合 和 数组 ) 的 分 配 和 访问 方式 。 我 们 还 说 明 实 现 整数 和 浮 点 数 算术 运算 的 指令 。 我 们 还 
以 分 析 程序 在 机 器 级 的 样子 作为 途径 ， 来 理解 常见 的 代码 安全 漏洞 (例如 缓冲 区 溢出 )， 以 
及 理解 程序 员 、 编 译 器 和 操作 系统 可 以 采取 的 减轻 这 些 威胁 的 措施 。 学 习 本 章 的 概念 能 
够 帮助 读者 成 为 更 好 的 程序 员 ， 因 为 你 们 懂得 程序 在 机 器 上 是 如 何 表示 的 。 另 外 一 个 好 
处 就 在 于 读者 会 对 指针 有 非常 全 面 而 具体 的 理解 。 

@ 第 4 章 : 处 理 器 体系 结构 。 这 一 章 讲述 基本 的 组 合 和 时 序 逻 辑 元 素 ， 并 展示 这 些 元 素 如 
何在 数据 通路 中 组 合 到 一 起 ， 来 执行 x86-64 指令 集 的 一 个 称 为 “Y86-64” 的 简化 子 集 。 
我 们 从 设计 单 时 钟 周 期 数据 通路 开始 。 这 个 设计 概念 上 非常 简单 ， 但 是 运行 速度 不 会 太 
快 。 然 后 我 们 引信 流 水 线 的 思想 ， 将 处 理 一 条 指令 所 需要 的 不 同步 又 实现 为 独立 的 阶段 。 
这 个 设计 中 ,在 任何 时 刻 ， 每 个 阶段 都 可 以 处 理 不 同 的 指令 。 我 们 的 五 阶段 处 理 器 流水 
线 更 加 实用 。 本 章 中 处 理 器 设计 的 控制 逻辑 是 用 一 种 称 为 HCL 的 简单 硬件 描述 语言 来 描 
述 的 。 用 HCL 写 的 硬件 设计 能 够 编译 和 链接 到 本 书 提供 的 模拟 器 中 ， 还 可 以 根据 这 些 设计 
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生成 Verilog 描述 ， 它 适合 合成 到 实际 可 以 运行 的 硬件 上 去 。 

@ 第 5 章 ; 优化 程序 性 能 。 在 这 一 章 里 ， 我 们 介绍 了 许多 提高 代码 性 能 的 技术 ， 主 要 思想 

就 是 让 程序 员 通 过 使 编译 器 能 够 生成 更 有 效 的 机 器 代码 来 学 习 编 写 C 代码 。 我 们 一 开始 

介绍 的 是 减少 程序 需要 做 的 工作 的 变换 ， 这 些 是 在 任何 机 器 上 写 任何 程序 时 都 应 该 遵循 

的 。 然 后 讲 的 是 增加 生成 的 机 器 代码 中 指令 级 并 行 度 的 变换 ， 因 而 提高 了 程序 在 现代 
“超标 量 ” 处 理 器 上 的 性 能 。 为 了 解释 这 些 变 换行 之 有 效 的 原理 ， 我 们 介绍 了 一 个 简单 

的 操作 模型 ， 它 描述 了 现代 乱 序 处 理 器 是 如 何 工 作 的 ， 然 后 给 出 了 如 何 根据 一 个 程序 的 

图 形 化 表示 中 的 关键 路 径 来 测量 一 个 程序 可 能 的 性 能 。 你 会 惊讶 于 对 C 代码 做 一 些 简 单 

的 变换 能 给 程序 带 来 多 大 的 速度 提升 。 

第 6 章 : 存储 器 层次 结构 。 对 应 用 程序 员 来 说 ， 存 储 器 系统 是 计算 机 系统 中 最 直接 可 见 

的 部 分 之 一 。 到 目前 为 止 ， 读 者 一 直 认 同 这 样 一 个 存储 器 系统 概念 模型 ， 认 为 它 是 一 个 

有 一 致 访 问 时 间 的 线性 数组 。 实 际 上 ， 存 储 器 系统 是 一 个 由 不 同 容量 、 造 价 和 访问 时 间 

的 存储 设备 组 成 的 层次 结构 。 我 们 讲述 不 同类 型 的 随机 存 取 存 储 器 (RAM) 和 只 读 存 储 器 

(ROM)， 以 及 磁盘 和 固态 硬盘 “的 几何 形状 和 组 织 构造 。 我 们 描述 这 些 存储 设备 是 如 

何 放置 在 层次 结构 中 的 ， 讲 述 访问 局 部 性 是 如 何 使 这 种 层次 结构 成 为 可 能 的 。 我 们 通 

过 一 个 独特 的 观点 使 这 些 理论 具体 化 ， 那 就 是 将 存储 器 系统 视 为 一 个 “存储 器 山 ”， 

山 湖 是 时 间 局 部 性 ， 而 斜坡 是 空间 局 部 性 。 最 后 ， 我 们 向 读者 阐述 如 何 通过 改善 程序 

的 时 间 局 部 性 和 空间 局 部 性 来 提高 应 用 程序 的 性 能 
e@ 第 7 章 : 链接 。 本 章 讲 述 静 态 和 动态 链接 ， 包括 的 概念 有 可 重 定位 的 和 可 执行 的 目 

”” 标 文 件 、 符 号 解析 、 重 定位 、 静 态 库 、 共 享 目标 库 、 位 置 无 关 代 码 ， 以 及 库 打桩 。 
大 多 数 讲述 系统 的 书 中 都 不 讲 链接 ， 我 们 要 讲述 它 是 出 于 以 下 原因 。 第 一 ， 程 序 员 
遇 到 的 最 令 人 迷惑 的 问题 中 ， 有 一 些 和 链接 时 的 小 故障 有 关 ， 尤 其 是 对 那些 大 型 软 
件 包 来 说 。 第 二 ， 链 接 器 生成 的 目标 文件 是 与 一 些 像 加 载 、 虚 拟 内 存 和 内 存 映射 这 
样 的 概念 相关 的 。 

@ 第 8 章 :; 异常 控制 流 。 在 本 书 的 这 个 部 分 ， 我 们 通过 介绍 异常 控制 流 ( 即 除 正 常 分 
支 和 过 程 调用 以 外 的 控制 流 的 变化 ) 的 一 般 概念 ， 打 破 单一 程序 的 模型 。 我 们 给 出 
存在 于 系统 所 有 层次 的 异常 控制 流 的 例子 ， 从 底层 的 硬件 异常 和 中 断 ， 到 并 发 进程 
的 上 下 文 切换 ， 到 由 于 接收 Linux 信号 引起 的 控制 流 突 变 ， 到 C 语言 中 破坏 栈 原 则 
的 非 本 地 跳 转 。 

在 这 一 章 ， 我 们 介绍 进程 的 基本 概念 ， 进 程 是 对 一 个 正在 执行 的 程序 的 一 种 抽 
象 。 读 者 会 学 习 进 程 是 如 何 工 作 的 ， 以 及 如 何在 应 用 程序 中 创建 和 操纵 进程 。 我 们 





加 直译 应 为 固态 驱动 器 ， 但 固态 硬盘 一 词 已 经 被 大 家 接受 ， 所 以 沿用 。 一 一 译 者 注 
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会 展示 应 用 程序 员 如 何 通过 Linux 系统 调用 来 使 用 多 个 进程 。 学 完 本 章 之 后 ， 读 者 
就 能 够 编写 带 作 业 控 制 的 Linux shell 了 。 同 时 ， 这 里 也 会 向 读者 初步 展示 程序 的 并 
发 执行 会 引起 不 确定 的 行为 。 

9 章 : 虚拟 内 存 。 我 们 讲述 虚拟 内 存 系统 是 希望 读者 对 它 是 如 何 工作 的 以 及 它 的 特 

性 有 所 了 解 。 我 们 想 让 读者 了 解 为 什么 不 同 的 并 发 进程 各 自 都 有 一 个 完全 相同 的 地 址 

范围 ， 能 共享 某 些 页 ， 而 又 独占 另外 一 些 页 。 我 们 还 讲 了 一 些 管理 和 操纵 虚拟 内 存 的 

问题 。 特 别 地 ， 我 们 讨论 了 存储 分 配 操作 ， 就 像 标准 库 的 malloc 和 free 操作 。 阐 述 
这 些 内 容 是 出 于 下 面 几 个 目的 。 它 加 强 了 这 样 一 个 概念 ， 那 就 是 虚拟 内 存 空 间 只 是 一 

个 字 节 数组 ， 程 序 可 以 把 它 划 分 成 不 同 的 存储 单元 。 它 可 以 帮助 读者 理解 当 程序 包含 

存储 泄漏 和 非法 指针 引用 等 内 存 引用 错误 时 的 后 果 。 最 后 ， 许 多 应 用 程序 员 编 写 自 己 

的 优化 了 的 存储 分 配 操作 来 满足 应 用 程序 的 需要 和 特性 。 这 一 章 比 其 他 任何 一 章 都 更 

能 展现 将 计算 机 系统 中 的 硬件 和 软件 结合 起 来 阐述 的 优点 。 We 

和 操作 系统 书籍 都 只 讲述 虚拟 内 存 的 某 一 方面 。 

第 10 章 : 系统 级 I/O。 我 们 讲述 Unix I/O 的 基本 概念 ， 例 如 文件 和 描述 符 。 我 们 

描述 如 何 共享 文件 ，1/O 重 定向 是 如 何 工作 的 ， 还 有 如 何 访问 文件 的 元 数据 。 我 们 

还 开发 了 一 个 健壮 的 带 缓 冲 区 的 MO 包 ， 可 以 正确 处 理 一 种 称 为 short counts 的 奇 

特 行 为 ， 也 就 是 库 函 数 只 读 取 一 部 分 的 输入 数据 。 我 们 阐述 C 的 标准 WO 库 ， 以 及 

它 与 Linux LI/O 的 关系 ， 重 点 谈 到 标准 1/O 的 局 限 性 ， 这 些 局 限 性 使 之 不 适合 网 络 

编程 。 总 的 来 说 ， 本 章 的 主题 是 后 面 两 章 一 一 网 络 和 并 发 编程 的 基础 。 

@ 第 11 章 : 网 络 编程 。 对 编程 而 言 ， 网 络 是 非常 有 趣 的 IO 设备 ， 它 将 许多 我 们 前 面 
文中 学 习 的 概念 (比如 进程 、 信 号 、 字 节 顺 序 、 内 存 映射 和 动态 内 存 分 配 ) 联 系 在 一 起 。 
网 络 程序 还 为 下 一 章 的 主题 一 一 并 发 ， 提 供 了 一 个 很 令 人 信服 的 上 下 文 。 本 章 只 是 网 
络 编程 的 一 个 很 小 的 部 分 ， 使 读者 能 够 编写 一 个 简单 的 Web 服务 器 。 我 们 还 讲述 位 于 
所 有 网 络 程序 底层 的 客户 端 -服务 器 模型 。 我 们 展现 了 一 个 程序 员 对 Internet 的 观点 ， 
并 且 教 读者 如 何 用 套 接 字 接口 来 编写 Internet 客户 端 和 服务 器 。 最 后 ， 我 们 介绍 超 文 
本 传输 协议 (HTTP)， 并 开发 了 一 个 简单 的 迭代 式 Web 服务 器 。 

@ 第 12 章 : 并 发 编程 。 这 一 章 以 Internet 服务 器 设计 为 例 介绍 了 并 发 编程 。 我 们 比较 
对 照 了 三 种 编写 并 发 程序 的 基本 机 制 ( 进 程 、I/O 多 路 复 用 和 线程 )， 并 且 展 示 如 何 用 
它们 来 建造 并 发 Internet 服务 器 。 我 们 探讨 了 用 P、V 信号 量 操作 来 实现 同步 、 线 程 
安全 和 可 重 人 、 竞 争 条 件 以 及 死 锁 等 的 基本 原则 。 对 大 多 数 服务 器 应 用 来 说 ， 写 并 发 
代码 都 是 很 关键 的 。 我 们 还 讲述 了 线程 级 编程 的 使 用 方法 ， 用 这 种 方法 来 表达 应 用 程 
序 中 的 并 行 性 ， 使 得 程序 在 多 核 处 理 器 上 能 执行 得 更 快 。 使 用 所 有 的 核 解决 同一 个 计 
算 问 题 需要 很 小 心 谨慎 地 协调 并 发 线程 ， 既 要 保证 正确 性 ， 又 要 争取 获得 高 性 能 。 
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本 版 新 增 内 容 


本 书 的 第 1 版 于 2003 年 出 版 ， 第 2 版 在 2011 年 出 版 。 考 虑 到 计算 机 技术 发 展 如 此 迅速 ， 
这 本 书 的 内 容 还 算是 保持 得 很 好 。 事 实证 明 Intel x86 的 机 器 上 运行 Linux( 以 及 相关 操作 系 
统 )， 加 上 采用 C 语言 编程 ， 是 一 种 能 够 涵盖 当今 许多 系统 的 组 合 。 然 而 ， 硬 件 技术 、 编 译 
器 和 程序 库 接口 的 变化 ， 以 及 很 多 教师 教授 这 些 内 容 的 经 验 ， 都 促使 我 们 做 了 大 量 的 修改 。 


第 2 版 以 来 的 最 大 整体 变化 是 ， 我们 的 介绍 从 以 IA32 和 x86-64 为 基础 ， 转 变 为 完全 
以 x86-64 为 基础 。 这 种 重心 的 转移 影响 了 很 多 章节 的 内 容 。 下 面 列 出 一 些 明显 的 变化 : 


我 们 将 第 5 章 对 Amdahl 定理 的 讨论 移 到 了 本 章 。 
读者 和 评论 家 的 反馈 是 一 致 的 ， 本 章 的 一 些 内 容 有 点 令 人 不 知 所 措 。 
我 们 澄清 了 一 些 知识 点 ， 用 更 加 数学 的 方式 来 描述 ， 使 得 这 些 内 容 更 容易 理 

解 。 这 使 得 读者 能 先 略 过 数学 细节 ， 获 得 高 层次 的 总 体 概念 ， 然 后 回 过 头 来 进行 更 
细致 深入 的 阅读 。 

e@ 第 3 章 。 我 们 将 之 前 基于 IA32 和 x86-64 的 表现 形式 转换 为 完全 基于 x86-64， 还 更 
新 了 近期 版 本 GCC 产生 的 代码 。 其 结果 是 大 量 的 重 写 工 作 ， 包 括 修改 了 一 些 概念 
提出 的 顺序 。 同 时 ， 我 们 还 首次 介绍 了 对 处 理 浮 点 数据 的 程序 的 机 器 级 支持 。 由 于 
历史 原因 ， 我 们 给 出 了 一 个 网 络 旁 注 描 述 IA32 机 器 码 。 

e@ 第 4 章 。 我 们 将 之 前 基于 32 位 架构 的 处 理 器 设计 修改 为 支持 64 位 字 和 操作 的 设计 。 

.@ 第 5 章 。 我 们 更 新 了 内 容 以 反映 最 近 几 代 x86-64 处 理 器 的 性 能 。 通 过 引入 更 多 的 功 
能 单元 和 更 复杂 的 控制 逻辑 ， 我 们 开发 的 基于 程序 数据 流 表 示 的 程序 性 能 模型 ， 其 
性 能 预测 变 得 比 之 前 更 加 可 靠 。 

e 第 6 章 。 我 们 对 内 容 进 行 了 更 新 ， 以 反映 更 多 的 近期 技术 。 

@ 第 7 章 。 针 对 x86-64， 我们 重 写 了 本 章 ， 扩 充 了 关于 用 GOT 和 了 PLT 创建 位 置 无 关 
代码 的 讨论 ， 新 增 了 一 节 描 述 更 加 强大 的 链接 技术 ， 比 如 库 打 桩 。 

e@ 第 8 章 。 我 们 增加 了 对 信号 处 理 程序 更 细致 的 描述 ， 包 括 异 步 信号 安全 的 函数 ， 编 写 
信和 号 处 理 程序 的 具体 指导 原则 ， 以 及 用 sigsuspend 等 待 处 理 程序 。 

e 第 9 章 。 本 章 变 化 不 大 。 

@ 第 10 章 。 我 们 新 增 了 一 节 说 明文 件 和 文件 的 层次 结构 ， 除 此 之 外 ， 本 章 的 变化 
不 大 。 

® 第 11 章 。 我 们 介绍 了 采用 最 新 getaddrinfo 和 getnameinfo 函数 的 、 与 协议 无 
关 和 线程 安全 的 网 络 编程 ， 取 代 过 时 的 、 不 可 重 人 的 gethostbyname 和 gethost- 
byaddr 函数 。 


ee 第 1 章 。 
章 。 


@ 第 2 
此 ， 
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e® 第 12 章 。 我 们 扩充 了 利用 线程 级 并 行 性 使 得 程序 在 多 核 机 器 上 更 快运 行 的 内 容 。 
此 外 ， 我 们 还 增加 和 修改 了 很 多 练习 题 和 家 庭 作 业 。 


本 书 的 起 源 

本 书 起 源 于 1998 年 秋季 ， 我们 在 卡 内 基 - 梅 隆 (CMU) 大 学 开设 的 一 门 编号 为 15-213 
的 介绍 性 课程 : 计算 机 系统 导论 (Introduction to Computer System，ICS)[14]。 从 那 以 
后 ， 每 学 期 都 开设 了 ICS 这 门 课程 ， 每 学 期 有 超过 400 名 学 生 上 课 ， 这 些 学 生 从 本 科 二 年 
级 到 硕士 研究 生 都 有 ， 所 学 专业 也 很 广泛 。 这 门 课程 是 卡 内 基 - 梅 隆 大 学 计算 机 科学 系 
(CS) 以 及 电子 和 计算 机 工程 系 (ECE) 所 有 本 科 生 的 必修 课 ， 也 是 CS 和 ECE 大 多 数 高 级 
系统 课程 的 先行 必修 课 。 


ICS 这 门 课程 的 宗旨 是 用 一 种 不 同 的 方式 向 学 生 介绍 计算 机 。 因 为 ， 我 们 的 学 生 中 几 
乎 没有 人 有 机 会 亲自 去 构造 一 个 计算 机 系统 。 另 一 方面 ， 大 多 数学 生 ， 甚 至 包括 所 有 的 计 
算 机 科学 家 和 计算 机 工程 师 ， 也 需要 日 常 使 用 计算 机 和 编写 计算 机 程序 。 所 以 我 们 决定 从 
程序 员 的 角度 来 讲解 系统 ， 并 采用 这 样 的 原则 过 滤 要 讲述 的 内 容 : 我 们 只 讨论 那些 影响 用 
户 级 C 语言 程序 的 性 能 、 正 确 性 或 实用 性 的 主题 。 


比如 ， 我 们 排除 了 诸如 硬件 加 法 器 和 总 线 设 计 这 样 的 主题 。 虽 然 我 们 谈 及 了 机 器 语 
言 ， 但 是 重点 并 不 在 于 如 何 手工 编写 汇编 语言 ， 而 是 关注 C 语言 编译 器 是 如 何 将 C 语言 的 
结构 翻译 成 机 器 代码 的 ， 包 括 编 译 器 是 如 何 翻译 指针 、 循 环 、 过 程 调 用 以 及 开关 (switch) 
语句 的 。 更 进一步 地 ， 我 们 将 更 广泛 和 全 盘 地 看 待 系 统 ， 包 括 硬件 和 系统 软件 ， 涵 盖 了 包 
括 链接 、 加 载 、 进 程 、 信 号 、 性 能 优化 、 虚 拟 内 存 、I/O 以 及 网 络 与 并 发 编程 等 在 内 的 
主题 。 

这 种 做 法 使 得 我 们 讲授 ICS 课程 的 方式 对 学 生来 讲 既 实用 、 具 体 ， 还 能 动手 操作 ， 同 
时 也 非常 能 调动 学 生 的 积极 性 。 很 快 地 ， 我 们 收 到 来 自学 生 和 教 职 工 非常 热烈 而 积极 的 反 
响 ， 我 们 意识 到 卡 内 基 - 梅 隆 大 学 以 外 的 其 他 人 也 可 以 从 我 们 的 方法 中 获 益 。 因 此 ， 这 本 
书 从 ICS 课程 的 笔记 中 应 运 而 生 了 ， 而 现在 我 们 对 它 做 了 修改 ， 使 之 能 够 反映 科学 技术 以 
及 计算 机 系统 实现 中 的 变化 和 进步 。 

通过 本 书 的 多 个 版 本 和 多 种 语言 译本 ，ICS 和 许多 相似 课程 已 经 成 为 世界 范围 内 数 百 
所 高 校 的 计算 机 科学 和 计算 机 工程 课程 的 一 部 分 。 


写 给 指导 教师 们 : 可 以 基于 本 书 的 课程 
指导 教师 可 以 使 用 本 书 来 讲授 五 种 不 同类 型 的 系统 课程 ( 见 图 2) 。 具 体 每 门 课程 则 有 
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赖 于 课程 大 纲 的 要 求 、 个 人 喜好 、 学 生 的 背景 和 能 力 。 图 中 的 课程 从 左 往 右 越 来 越 强调 以 
程序 员 的 角度 来 看 待 系 统 。 以 下 是 简单 的 描述 。 


e ORG: 一 门 以 非 传 统 风 格 讲述 传统 主题 的 计算 机 组 成 原理 课程 。 传 统 的 主题 包括 逻辑 设 
计 、 处 理 器 体系 结构 、 汇 编 语言 和 存储 器 系统 ， 然 而 这 里 更 多 地 强调 了 对 程序 员 的 影 
响 。 例 如 ， 要 反 过 来 考虑 数据 表示 对 C 语言 程序 的 数据 类 型 和 操作 的 影响 。 又 例如 ， 对 
汇编 代码 的 讲解 是 基于 C 语言 编译 器 产生 的 机 器 代码 ， 而 不 是 手工 编写 的 汇编 代码 。 
ORG 十 : 一 门 特 别 强 调 硬件 对 应 用 程序 性 能 影响 的 ORG 课程 。 和 ORG 课程 相 比 ， 
学 生 要 更 多 地 学 习 代 码 优 化 和 改进 C 语言 程序 的 内 存 性 能 。 

ICS: 基本 的 ICS 课程 ， 旨 在 培养 一 类 程序 员 ， 他 们 能 够 理解 硬件 、 操 作 系统 和 编 

译 系统 对 应 用 程序 的 性 能 和 正确 性 的 影响 。 和 ORG 十 课程 的 一 个 显著 不 同 是 ， 本 

课程 不 涉及 低层 次 的 处 理 器 体系 结构 。 相 反 ， 程 序 员 只 同 现代 乱 序 处 理 器 的 高 级 模 

型 打交道 。ICS 课程 非常 适合 安排 到 一 个 10 周 的 小 学 期 ， 如 果 期 望 步调 更 从 容 一 

些 ， 也 可 以 延长 到 一 个 15 周 的 学 期 。 

ICS 十 : 在 基本 的 ICS 课程 基础 上 ， 额 外 论述 一 些 系统 编程 的 问题 ， 比 如 系统 级 

I/O、 网 络 编程 和 并 发 编程 。 这 是 卡 内 基 - 梅 隆 大 学 的 一 门 一 学 期 时 长 的 课程 ， 会 讲 

述 本 书 中 除了 低级 处 理 器 体系 结构 以 外 的 所 有 章 。 

e SP: 一 门 系统 编程 课程 。 和 ICS 十 课程 相似 ,但 是 剔除 了 浮 点 和 性 能 优化 的 内 容 ， 
更 加 强调 系统 编程 ， 包 括 进 程控 制 、 动 态 链接 、 系 统 级 I/O、 网 络 编程 和 并 发 编程 。 
指导 教师 可 能 会 想 从 其 他 渠道 对 某 些 高 级 主题 做 些 补充 ， 比 如 守护 进程 (daemon)、 
终端 控制 和 Unix IPC( 进 程 间 通信 ) 。 


图 2 要 表达 的 主要 信息 是 本 书 给 了 学 生 和 指导 教师 多 种 选择 。 如 果 你 希望 学 生 更 多 地 
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图 2 五 类 基于 本 书 的 课程 
注 : 符号 加 表示 履 盖 部 分 章节 ， 其 中 : (a) 只 有 硬件 ; (b) 无 动态 存储 分 配 ; (c) 无 动态 链接 ; (d) 无 浮 点 数 。 
ICS 十 是 卡 内 基 - 梅 隆 的 15-213 课程 。 
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了 解 低 层次 的 处 理 器 体系 结构 ， 那 么 通过 ORG 和 ORG 十 课程 可 以 达到 目的 。 另 一 方面 ， 
如 果 你 想 将 当前 的 计算 机 组 成 原理 课程 转换 成 ICS 或 者 ICS 十 课程 ， 但 是 又 对 突然 做 这 样 
剧烈 的 变化 感到 担心 ， 那 么 你 可 以 逐步 递增 转向 ICS 课程 。 你 可 以 从 OGR 课程 开始 ， 它 
以 一 种 非 传统 的 方式 教授 传统 的 问题 。 一 旦 你 对 这 些 内 容 感到 驾轻就熟 了 ， 就 可 以 转 到 
ORG 十 ， 最 终 转 到 ICS。 如 果 学 生 没 有 C 语言 的 经 验 ( 比 如 他 们 只 用 Java 编写 过 程序 )， 
你 可 以 花 几 周 的 时 间 在 C 语言 上 ， 然 后 再 讲述 ORG 或 者 ICS 课程 的 内 容 。 


最 后 ， 我 们 认为 ORG 十 和 SP 课程 适合 安排 为 两 期 (两 个 小 学 期 或 者 两 个 学 期 ) 。 或 者 
你 可 以 考虑 按照 一 期 ICS 和 一 期 SP 的 方式 来 教授 ICS 十 课程 。 


写 给 指导 教师 们 : 经 过 课堂 验证 的 实验 练习 

ICS 十 课程 在 卡 内 基 - 梅 隆 大 学 得 到 了 学 生 很 高 的 评价 。 学 生 对 这 门 课程 的 评价 ， 中 值 
分 数 一 般 为 5. 0/5. 0， 平 均 分 数 一 般 为 4. 6/5. 0。 学 生 们 说 这 门 课 非 常 有 趣 ， 令 人 兴奋 ， 
主要 就 是 因为 相关 的 实验 练习 。 这 些 实验 练习 可 以 从 CS:APP 的 主页 上 获得 。 下 面 是 本 书 
提供 的 一 些 实验 的 示例 。 


e@ 数据 实验 。 这 个 实验 要 求学 生 实现 简单 的 逻辑 和 算术 运算 函数 ,但 是 只 能 使 用 一 
非常 有 限 的 C 语言 子 集 。 比 如 ， 只 能 用 位 级 操作 来 计算 一 个 数字 的 绝对 值 。 这 个 
验 可 帮助 学 生 了 解 C 语言 数据 类 型 的 位 级 表示 ， 以 及 数据 操作 的 位 级 行为 。 

二 进 制 炸弹 实验 。 二 进 制 炸弹 是 一 个 作为 目标 代码 文件 提供 给 学 生 的 程序 。 运 行 

时 ， 它 提示 用 户 输入 6 个 不 同 的 字符 串 。 如 果 其 中 的 任何 一 个 不 正确 ， 炸 弹 就 会 

“爆炸 ”， 打 印 出 一 条 错误 消息 ， 并 且 在 一 个 打分 服务 器 上 记录 事件 日 志 。 学 生 必 须 

通过 对 程序 反 汇 编 和 逆向 工程 来 测定 应 该 是 哪 6 个 串 ， 从 而 解除 各 自 炸 弹 的 雷管 

该 实验 能 教会 学 生理 解 汇编 语言 ， 并 且 强 制 他 们 学 习 怎 样 使 用 调试 器 。 

@ 缓冲 区 溢出 实验 。 它 要 求学 生 通 过 利用 一 个 缓冲 区 溢出 漏洞 ， 来 修改 一 个 二 进 制 可 

行文 件 的 运行 时 行为 。 这 个 实验 可 教会 学 生 栈 的 原理 ， 并 让 他 们 了 解 写 那 种 易于 
遭受 缓冲 区 溢出 攻击 的 代码 的 危险 性 。 

@ 体系 结构 实验 。 第 4 章 的 几 个 家 庭 作 业 能 够 组 合成 一 个 实验 作业 ， 在 实验 中 ， 学 生 
修改 处 理 器 的 HCL 描述 ， 增 加 新 的 指令 ， 修 改 分 支 预测 策略 ， 或 者 增加 、 删 除 旁 
路 路 径 和 寄存 器 端口 。 修 改 后 的 处 理 器 能 够 被 模拟 ， 并 通过 运行 自动 化 测试 检测 出 
大 多 数 可 能 的 错误 。 这 个 实验 使 学 生 能 够 体验 处 理 器 设计 中 令 人 激动 的 部 分 ， 而 不 
需要 掌握 逻辑 设计 和 硬件 描述 语言 的 完整 知识 。 

@ 性 能 实验 。 学 生 必 须 优 化 应 用 程序 的 核心 函数 (比如 卷 积 积分 或 矩阵 转 置 ) 的 性 能 。 这 
个 实验 可 非常 清晰 地 表明 高 速 缓存 的 特性 ， 并 带 给 学 生 低 级 程序 优化 的 经 验 。 
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e cache 实验 。 这 个 实验 类 似 于 性 能 实验 ， 学 生 编 写 一 个 通用 高 速 缓存 模拟 器 ， 并 优 
化 小 型 矩阵 转 置 核心 函数 ， 以 最 小 化 对 模拟 的 高 速 缓存 的 不 命中 次 数 。 我 们 使 用 
Valgrind 为 矩阵 转 置 核心 函数 生成 真实 的 地 址 访问 记录 。 

e shell 实验 。 学 生 实 现 他 们 自己 的 带 有 作业 控制 的 Unix shell 程序 ， 包 括 Ctrl 十 C 和 
Ctrl 十 Z 按键 ，fg、bg 和 jobs 命令 。 这 是 学 生 第 一 次 接触 并 发 ， 并 且 让 他 们 对 
Unix 的 进程 控制 、 信 号 和 信和 号 处 理 有 清晰 的 了 解 。 

@ malloc 实验 。 学 生 实现 他 们 自己 的 malloc、free 和 realloc( 可 选 ) 版 本 。 这 个 
实验 可 让 学 生 们 清晰 地 理解 数据 的 布局 和 组 织 ， 并 且 要 求 他 们 评估 时 间 和 空间 效率 
的 各 种 权衡 及 折 中 。 

9 代理 实验 。 实 现 一 个 位 于 浏览 器 和 万 维 网 其 他 部 分 之 间 的 并 行 Web 代理 。 这 个 实 
验 向 学 生 们 揭示 了 Web 客户 端 和 服务 器 这 样 的 主题 ， 并 且 把 课程 中 的 许多 概念 联 
系 起 来 ， 比 如 字 节 排序 、 文 件 IO、 进 程控 制 、 信 和 号、 信和 号 处 理 、 内 存 映 射 、 套 接 
字 和 并 发 。 学 生 很 高 兴 能 够 看 到 他 们 的 程序 在 真实 的 Web 浏览 器 和 Web 服务 器 之 
间 起 到 的 作用 。 


CS:APP 的 教师 手册 中 有 对 实验 的 详细 讨论 ， 还 有 关于 下 载 支 持 软件 的 说 明 。 


第 3 版 的 致谢 
很 荣幸 在 此 感谢 那些 帮助 我 们 完成 本 书 第 3 版 的 人 们 。 


“ 我 们 要 感谢 卡 内 基 - 梅 隆 大 学 的 同事 们 ， 他 们 已 经 教授 了 ICS 课程 多 年 ， 并 提供 了 富 
有 见解 的 反馈 意见 ， 给 了 我 们 极 大 的 鼓励 : Guy Blelloch、Roger Dannenberg、David Eck- 
hardt、Franz Franchetti、Greg Ganger、Seth Goldstein、Khaled Harras、Greg Kesden、 
Bruce Maggs、Todd Mowry、Andreas Nowatzyk、Frank Pfenning、Markus Pueschel 和 
Anthony Rowe。David Winters 在 安装 和 配置 参考 Linux 机 器 方面 给 予 了 我 们 很 大 的 帮助 。 


Jason Fritts( 圣 路 易 斯 大 学 ，St. Louis University) 和 Cindy Norris( 阿 帕 拉 契 州立 大 
学 ，Appalachian State) 对 第 2 版 提供 了 细致 周密 的 评论 。 获 奕 利 (武汉 大 学 ，Wuhan Uni- 
versity) 翻译 了 中 文 版 ， 并 为 其 维护 勘误 ， 同 时 还 贡献 了 一 些 错误 报告 。Godmar Back( 弗 
吉 尼 亚 理 工大 学 ，Virginia Tech) 向 我 们 介绍 了 异步 信号 安全 以 及 与 协议 无 关 的 网 络 编程 ， 
帮助 我 们 显著 提升 了 本 书 质量 。 


非常 感谢 目光 敏锐 的 读者 们 ， 他 们 报告 了 第 2 版 中 的 错误 : Rami Ammari、Paul An- 
agnostopoulos、Lucas Birenfinger、Godmar Back、 Ji Bin、Sharbel Bousemaan、Richard 


Callahan、 Seth Chaiken、 Cheng Chen、 Libo Chen、 Tao Du、 Pascal Garcia、 Yili Gong、 
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Ronald Greenberg、Dorukhan Giil6z、Dong Han、Dominik Helm、Ronald Jones、Musta- 
fa Kazdagli、 Gordon Kindlmann、Sankar Krishnan、Kanak Kshetri、jJunlin Lu、Qian- 
gqiang Luo、 Sebastian Luy、 Lei Ma、 Ashwin Nanjappa、 Gregoire Paradis、 Jonas Pfen- 
ninger~ Karl Pichotta、 David Ramsey、 Kaustabh Roy、David Selvaraj 、Sankar Shan- 
mugam、 Dominique Smulkowska、 Dag Sorbo、 Michael Spear、 Yu Tanaka、 Steven Tri- 
canowicz、 Scott Wright、Waiki Wright、Han Xu、 Zhengshan Yan、 Firo Yang、 Shuang 
Yang、John Ye、 Taketo Yoshida、Yan Zhu 和 Michael Zink。 


还 要 感谢 对 实验 做 出 贡献 的 读者 ， 他 们 是 : Godmar Back( 弗 吉 尼 亚 理工 大 学 ，Vir- 
ginia Tech) 、Taymon Beal( 伍 斯 特 理工 学 院 ，Worcester Polytechnic Institute) 、Aran 
Clauson ( 西 华 盛 顿 大 学 ，Western Washington University)、Cary Gray ( 威 顿 学 院 ， 
Wheaton College) 、Paul Haiduk (德州 农机 大 学 ，West Texas A&M University) 、Len 
Hamey( 麦 考 瑞 大 学 ，Macquarie University) 、Eddie Kohler( 哈 佛 大 学 ，Harvard) 、Hugh 
Lauer( 伍 斯 特 理 工学 院 ，Worcester Polytechnic Institute) 、Robert Marmorstein( 朗 沃 德 大 
学 ，Longwood University) 和 James Riely( 德 保罗 大 学 ，DePaul University) 。 


再 次 感谢 Windfall 软件 公司 的 Paul Anagnostopoulos 在 本 书 排版 和 先进 的 制作 过 程 中 
所 做 的 精湛 工作 。 非 常 感谢 Paul 和 他 的 优秀 团队 : Richard Camp (文字 编辑 ) 、Jennifer 
McClain( 校 对 )、Laurel Muller( 美 术 制作 ) 以 及 Ted Laux( 索 引 制 作 ) 。Paul 甚至 找 出 了 我 
们 对 缩写 BSS 的 起 源 描述 中 的 一 个 错误 ， 这 个 错误 从 第 1 版 起 一 直 没 有 被 发 现 ! 


最 后 ， 我 们 要 感谢 Prentice Hall 出 版 社 的 朋友 们 。Marcia Horton 和 我 们 的 编辑 Matt 
Goldstein 一 直 坚 定 不 移 地 给 予 我 们 支持 和 鼓励 ， 非 常 感谢 他 们 。 


第 2 版 的 致谢 
我 们 深 深 地 感谢 那些 帮助 我 们 写 出 CS:APP 第 2 版 的 人 们 。 


首先 ， 我 们 要 感谢 在 卡 内 基 - 梅 隆 大 学 教授 ICS 课程 的 同事 们 ， 感 谢 你 们 见解 深刻 的 
反馈 意见 和 鼓励 : Guy Blelloch、Roger Dannenberg、David Eckhardt、Greg Ganger、 
Seth Goldstein、 Greg Kesden、 Bruce Maggs、 Todd Mowry、 Andreas Nowatzyk、 Frank 
Pfenning 和 Markus Pueschel。 


还 要 感谢 报告 第 1 版 勘误 的 目光 敏锐 的 读者 们 : Daniel Amelang、Rui Baptista、Quarup 
Barreirinhas、 Michael Bombyk、Jarg Brauer、Jordan Brough、Yixin Cao、James Caroll、Rui Car- 
valho、Hyoung-Kee Choi、Al Davis、Grant Davis、Christian Dufour、Mao Fan、Tim Freeman、 
Inge Frick、Max Gebhardt、 Jeff Goldblat、Thomas Gross、Anita Gupta、 John Hampton、Hiep 
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Hong、 Greg Israelsen、Ronald Jones、Haudy Kazemi、Brian Kell、Constantine Kousoulis、Sacha 
Krakowiak、 Arun Krishnaswamy、Martin Kulas、Michael Li、 Zeyang Li、Ricky Liu、Mario Lo 
Conte、 Dirk Maas、 Devon Macey、 Carl Marcinik、Will Marrero、Simone Martins、Tao Men、 
Mark Morrissey、 Venkata Naidu、 Bhas Nalabothula、Thomas Niemann、Eric Peskin、David Po、 
Anne Rogers、John Ross、 Michael Scott、Seiki、Ray Shih、Darren Shultz、Erik Silkensen、Sury- 
anto、Emil Tarazi 、Nawanan Theera-Ampornpunt、Joe Trdinich、Michael Trigoboff 、James 
Troup 、Martin Vopatek、Alan West、Betsy Wolff、Tim Wong、 James Woodruff、 Scott Wright、 
Jackie Xiao、 Guanpeng Xu、 Qing Xu、 Caren Yang、 Yin Yongsheng、 Wang Yuanxuan、 Steven 
Zhang 和 Day Zhong。 特 别 感 谢 Inge Frick， 他 发 现 了 我 们 加 锁 复 制 (lock-and-copy) 例 子 中 一 个 极 
不 明显 但 很 深刻 的 错误 ， 还 要 特别 感谢 Ricky Liu， 他 的 校对 水 平 真 的 很 高 。 


我 们 Intel 实验 室 的 同事 Andrew Chien 和 Limor Fix 在 本 书 的 写作 过 程 中 一 直 非 常 支 
持 。 非 常 感谢 Steve Schlosser 提供 了 一 些 关 于 磁盘 驱动 器 的 总 结 描述 ，Casey Helfrich 和 
Michael Ryan 安装 并 维护 了 新 的 Core i7 机 器 。Michael Kozuch、Babu Pillai 和 Jason 
Campbell 对 存储 器 系统 性 能 、 多 核 系统 和 能 量 墙 问题 提出 了 很 有 价值 的 见解 。Phil Gib- 
bons 和 Shimin Chen 跟 我 们 分 享 了 大 量 关 于 固态 硬盘 设计 的 专业 知识 。 


我 们 还 有 机 会 邀请 了 Wen-Mei Hwu、Markus Pueschel 和 Jiri Simsa 这 样 的 高 人 给 予 
了 一 些 针对 具体 问题 的 意见 和 高 层次 的 建议 。James Hoe 帮助 我 们 写 了 Y86 处 理 器 的 
Verilog 描述 ， 还 完成 了 所 有 将 设计 合成 到 可 运行 的 硬件 上 的 工作 。 


“非常 感谢 审阅 本 书 草稿 的 同事 们 ，James Archibald( 百 翰 杨 大 学 ，Brigham Young Univer- 
sity) 、Richard Carver( 乔 治 梅森 大 学 ，George Mason University) 、Mirela Damian( 维 拉 诺 瓦 大 
学 ，Villanova University) 、Peter Dinda( 西 北大 学 )、John Fiore( 坦 普尔 大 学 ，Temple Univer- 
sity) 、Jason Fritts( 圣 路 易 斯 大 学 ，St. Louis University) 、John Greiner( 莱 斯 大 学 ) 、Brian Har- 
vey( 加 州 大 学 伯克利 分 校 )、Don Heller( 宾 夕 法 利 亚 州 立 大 学 )、Wei Chung Hsu( 明 尼 苏 达 大 
学 )、Michelle Hugue( 马 里 兰 大 学 ) 、Jeremy Johnson( 德 雷 克 塞 尔 大 学 ，Drexel University) 、 
Geoff Kuenning( 哈 维 马 德 学 院 ，Harvey Mudd College) 、Ricky Liu、Sam Madden( 麻 省 理工 学 
院 ) 、Fred Martin( 马 萨 诸 塞 大 学 洛 厄 尔 分 校 ，University of Massachusetts, Lowell)、Abraham 
Matta( 波 士 顿 大 学 )、Markus Pueschel( 卡 内 基 - 梅 隆 大 学 )、Norman Ramsey( 塔 夫 茨 大 学 ， 
Tufts University) 、Glenn Reinmann (加 州 大 学 洛杉矶 分 校 )、Michela Taufer ( 特 拉 华 大 学 ， 
University of Delaware) 和 Craig Zilles( 伊 利 诺 伊 大 学 香槟 分 校 ) 。 


Windfall 软件 公司 的 Paul Anagnostopoulos 出 色 地 完成 了 本 书 的 排版 ， 并 领导 了 制作 
团队 。 非 常 感谢 Paul 和 他 超 棒 的 团队 : Rick Camp (文字 编辑 ) 、Joe Snowden (排版 )、 
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MaryEllen N. Oliver( 校 对 )、Laurel Muller( 美 术 ) 和 Ted Laux( 索 引 制 作 )。 


最 后 ， 我 们 要 感谢 Prentice Hall 出 版 社 的 朋友 们 。Marcia Horton 总 是 支持 着 我 们 。 
我 们 的 编辑 Matt Goldstein 由 始 至 终 表现 出 了 一 流 的 领导 才能 。 我 们 由 应 地 感谢 他 们 的 帮 
助 、 鼓 励 和 真知 灼 见 。 


第 1 版 的 致谢 

我 们 衷心 地 感谢 那些 给 了 我 们 中 肯 批 评 和 鼓励 的 众多 朋友 及 同事 。 特 别 感 谢 我 们 15- 
213 课程 的 学 生 们 ， 他 们 充满 感染 力 的 精力 和 热情 鞭策 我 们 前 行 。Nick Carter 和 Vinny 
Furia 无 私 地 提供 了 他 们 的 malloc 程序 包 。 


Guy Blelloch、Greg Kesden、Bruce Maggs 和 Todd Mowry 已 教授 此 课 多 个 学 期 ， 他 
们 给 了 我 们 鼓励 并 帮助 改进 课程 内 容 。Herb Derby 提供 了 早期 的 精神 指导 和 鼓励 。Allan 
Fisher、Garth Gibson、Thomas Gross、Satya、Peter Steenkiste 和 Hui Zhang 从 一 开始 就 
鼓励 我 们 开设 这 门 课程 。Garth 早期 给 的 建议 促使 本 书 的 工作 得 以 开展 ， 并 且 在 Allan 
Fisher 领导 的 小 组 的 帮助 下 又 细 化 和 修订 了 本 书 的 工作 。Mark Stehlik 和 Peter Lee 提供 
了 极 大 的 支持 ， 使 得 这 些 内 容 成 为 本 科 生 课程 的 一 部 分 。Greg Kesden 针对 ICS 在 操作 系 
统 课程 上 的 影响 提供 了 有 益 的 反馈 意见 。Greg Ganger 和 Jiri Schindler 提供 了 一 些 磁盘 驱 
动 的 描述 说 明 ， 并 回答 了 我 们 关于 现代 磁盘 的 疑问 。Tom Striker 向 我 们 展示 了 存储 器 山 
的 比喻 。James Hoe 在 处 理 器 体系 结构 方面 提出 了 很 多 有 用 的 建议 和 反馈 。 


有 一 群 特殊 的 学 生 极 大 地 帮助 我 们 发 展 了 这 门 课程 的 内 容 ， 他 们 是 Khalil Amiri、 
Angela Demke Brown、Chris Colohan、 Jason Crawford、 Peter Dinda、 Julio Lopez、 
Bruce Lowekamp, Jetf Pierce. Sanjay Rao, Balaji Sarpeshlkar. Blake Seholl. Sanjit Ses: 
hia、Greg Steffan、Tiankai Tu、Kip Walker 和 Yinglian Xie。 尤 其 是 Chris Colohan 建立 
了 愉悦 的 氛围 并 持续 到 今天 ， 还 发 明了 传奇 般 的 “二 进 制 炸弹 ”， 这 是 一 个 对 教授 机 器 语 
言 代 码 和 调试 概念 非常 有 用 的 工具 。 


Chris Bauer、Alan Cox、Peter Dinda、Sandhya Dwarkadis、John Greiner、Bruce Ja- 
cob 、Barry Johnson、Don Heller、Bruce Lowekamp、 Greg Morrisett、Brian Noble、 
Bobbie Othmer、Bill Pugh、Michael Scott、Mark Smotherman、 Greg Steffan 和 Bob Wier 
花费 了 大 量 时 间 阅 读 此 书 的 早期 草稿 ， 并 给 予 我 们 建议 。 特别 感谢 Peter Dinda( 西 北大 
学 ) 、John Greiner( 莱 茨 大 学 )、Wei Hsu( 明 尼 苏 达 大 学 )、Bruce Lowekamp( 威 廉 & 玛丽 
大 学 )、Bobbie Othmer( 明 尼 苏 达 大 学 )、Michael Scott( 罗 彻 斯 特大 学 ) 和 Bob Wier( 落 基 
山 学 院 ) 在 教学 中 测试 此 书 的 试用 版 。 同 样 特别 感谢 他 们 的 学 生 们 1! 
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我 们 还 要 感谢 Prentice Hall 出 版 社 的 同事 。 感 谢 Marcia Horton、Eric Frank 和 Har- 
old Stone 不 懈 的 支持 和 远见 。Harold 还 帮 我 们 提供 了 对 RISC 和 CISC 处 理 器 体系 结构 准 
确 的 历史 观点 。Jerry Ralya 有 惊人 的 见识 ， 并 教会 了 我 们 很 多 如 何 写作 的 知识 。 


最 后 ， 我 们 裹 心 感谢 伟大 的 技术 作家 Brian Kernighan 以 及 后 来 的 W. Richard Ste- 
vens， 他 们 向 我 们 证 明了 技术 书籍 也 能 写 得 如 此 优美 。 
谢谢 你 们 所 有 的 人 。 


Randal E. Bryant 
David R. O’Hallaron 
于 匹兹堡 ， 宾夕法尼亚 州 


或 关中 小 


andal E. Bryant 1973 年 于 密 欣 根 大 学 获得 学 十 学位， 随即 就 读 于 
R 麻 省 理工 学 院 研究 生 院 ， 并 在 1981 年 获 计算 机 科学 博士 学 位 。 他 
在 加 州 理工 学 院 做 了 三 年 助教 ， 从 1984 年 至 今 一 直 是 卡 内 基 - 梅 隆 大 学 
的 教师 。 这 其 中 有 五 年 的 时 间 ， 他 是 计算 机 科学 系 主任 ， 有 十 年 的 时 间 
是 计算 机 科学 学 院 院 长 。 他 现在 是 计算 机 科学 学 院 的 院 长 、 教 授 。 他 同 
时 还 受 邀 任职 于 电子 与 计算 机 工程 系 。 


他 教授 本 科 生 和 研究 生计 算 机 系统 方面 的 课程 近 40 年 。 在 讲授 计算 
机 体系 结构 课程 多 年 后 ， 他 开始 把 关注 点 从 如 何 设 计 计 算 机 转移 到 程序 
员 如 何在 更 好 地 了 解 系统 的 情况 下 编写 出 更 有 效 和 更 可 靠 的 程序 。 他 和 
O’Hallaron 教授 一 起 在 卡 内 基 - 梅 隆 大 学 开设 了 15-213 课程 “计算 机 系统 
导论 ”， 那 便 是 此 书 的 基础 。 他 还 教授 一 些 有 关 算 法 、 编 程 、 计 算 机 网 
络 、 分 布 式 系 统 和 VLSI( 超 大 规模 集成 电路 ) 设 计 方 面 的 课程 。 


Bryant 教授 的 主要 研究 内 容 是 设计 软件 工具 来 帮助 软件 和 硬件 设计 
者 验证 其 系统 正确 性 。 其 中 ， 包 括 几 种 类 型 的 模拟 器 ， 以 及 用 数学 方法 
来 证 明 设计 正确 性 的 形式 化 验证 工具 。 他 发 表 了 150 多 篇 技术 论文 。 包 
括 Intel、IBM、Fujitsu 和 Microsoft 在 内 的 主要 计算 机 制造 商都 使 用 着 他 
的 研究 成 果 。 他 还 因 他 的 研究 获得 过 数 项 大 奖 。 其 中 包括 Semiconductor 
Research Corporation 颁发 的 两 个 发 明 荣 誉 奖 和 一 个 技术 成 就 奖 ，ACM 颁 
发 的 Kanellakis 理论 与 实践 奖 , 还 有 IEEE 颁发 的 W. R.G. Baker 奖 、 
Emmanuel Piore 奖 和 Phil Kaufman 奖 。 他 还 是 ACM 院士 、IEEE 院士 、 
美国 国家 工程 院 院士 和 美国 人 文 与 科学 研究 院 院士 。 


David R. 0'Hallaron 卡 内 基 - 梅 隆 大 学 计算 机 科学 和 电子 与 计算 机 工 
程 系 教 授 。 在 弗吉尼亚 大 学 获得 计算 机 科学 博士 学 位 ，2007 一 2010 年 为 
Intel 匹 效 堡 实验 室 主任 。 


20 年 来 ， 他 教授 本 科 生 和 研究 生计 算 机 系统 方面 的 课程 ， 例 如 计算 机 
体系 结构 、 计 算 机 系统 导论 、 并 行 处 理 器 设计 和 Internet 服务 。 他 和 Bry- 
ant 教授 一 起 在 卡 内 基 - 梅 隆 大 学 开设 了 作为 本 书 基础 的 “计算 机 系统 导 
论 ” 课 程 。2004 年 他 获得 了 卡 内 基 - 梅 隆 大 学 计算 机 科学 学 院 颁发 的 Her- 
bert Simon 杰出 教学 奖 ， 这 个 奖项 的 获得 者 是 基于 学 生 的 投票 产生 的 。 
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O'Hallaron 教授 从 事 计算 机 系统 领域 的 研究 ， 主 要 兴趣 在 于 科学 计算 、 数 据 密集 型 计算 和 
虚拟 化 方面 的 软件 系统 。 其 中 最 著名 的 是 Quake 项 目 ， 该 项 目 是 一 群 计算 机 科学 家 、 土 木工 程 
师 和 地 震 学 家 为 提高 对 强烈 地 震中 大 地 运动 的 预测 能 力 而 开发 的 。2003 年 ， 他 同 Quake 项 目 
中 其 他 成 员 一 起 获得 了 高 性 能 计算 领域 中 的 最 高 国际 奖项 一 一 Gordon Bell 奖 。 他 目前 的 工作 
重点 是 自动 分 级 (autograding) 概 念 ， 即 评价 其 他 程序 质量 的 程序 。 
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计算 机 系统 滥 游 


计算 机 系统 是 由 硬件 和 系统 软件 组 成 的 ， 它 们 共同 工作 来 运行 应 用 程序 。 虽 然 系统 的 
具体 实现 方式 随 着 时 间 不 断 变化 ， 但 是 系统 内 在 的 概念 却 没有 改变 。 所 有 计算 机 系统 都 有 
相似 的 硬件 和 软件 组 件 ， 它 们 又 执行 着 相似 的 功能 。 一 些 程序 员 希 望 深 入 了 解 这 些 组 件 是 
如 何 工作 的 以 及 这 些 组 件 是 如 何 影响 程序 的 正确 性 和 性 能 的 ， 以 此 来 提高 自身 的 技能 。 本 
书 便 是 为 这 些 读者 而 写 的 。 

现在 就 要 开始 一 次 有 趣 的 漫游 历程 了 。 如 果 你 全 力 投 身 学 习 本 书 中 的 概念 ， 完 全 理解 底 
层 计 算 机 系统 以 及 它 对 应 用 程序 的 影响 ， 那 么 你 会 步 上 成 为 为 数 不 多 的 “大 牛 ” 的 道路 。 

你 将 会 学 习 一 些 实践 技巧 ， 比 如 如 何 避 免 由 计算 机 表示 数字 的 方式 引起 的 奇怪 的 数字 
错误 。 你 将 学 会 怎样 通过 一 些小 窍门 来 优化 自己 的 C 代码 ， 以 充分 利用 现代 处 理 器 和 存储 
器 系统 的 设计 。 你 将 了 解 编译 器 是 如 何 实现 过 程 调 用 的 ， 以 及 如 何 利 用 这 些 知 识 来 避免 组 
冲 区 溢出 错误 带 来 的 安全 漏洞 ， 这 些 弱 点 给 网 络 和 因特网 软件 带 来 了 巨大 的 麻烦 。 你 将 学 
会 如 何 识 别 和 避免 链接 时 那些 令 人 讨厌 的 错误 ， 它 们 困扰 着 普通 的 程序 员 。 你 将 学 会 如 何 
编写 自己 的 Unix shell、 自 己 的 动态 存储 分 配 包 ， 甚 至 于 自己 的 Web 服务 器 。 你 会 认识 并 发 
带 来 的 希望 和 陷阱 ， 这 个 主题 随 着 单个 芯片 上 集成 了 多 个 处 理 器 核 变 得 越 来 越 重要 。 

在 Kernighan 和 Ritchie 的 关于 C 编程 语言 的 经 典 教材 L61] 中 ， 他 们 通过 图 1-1 中 所 
示 的 hello 程序 来 向 读者 介绍 C。 尽 管 hello 程序 非常 简单 ， 但 是 为 了 让 它 实现 运行 ， 系 
统 的 每 个 主要 组 成 部 分 都 需要 协调 工作 。 从 某 种 意义 上 来 说 ， 本 书 的 目的 就 是 要 帮助 你 了 
解 当 你 在 系统 上 执行 nello 程序 时 ， 系 统 发 生 了 什么 以 及 为 什么 会 这 样 。 

和 一 codepintromelloc 
#include “stdio.h> 


1 

2 

3 int main() 

4 攻 

5 printf("hello, world\n"); 
6 return 0; 

7 } 


code/intro/hello.c 
图 1-1 hello 程序 (来 源 : [60]) 
我 们 通过 跟踪 hello 程序 的 生命 周期 来 开始 对 系统 的 学 习 一 一 从 它 被 程序 员 创 建 开 始 ， 


到 在 系统 上 运行 ， 输 出 简单 的 消息 ， 然 后 终止 。 我 们 将 沿 着 这 个 程序 的 生命 周期 ， 简 要 地 介 
绍 一 些 逐 步 出 现 的 关键 概念 、 专 业 术 语 和 组 成 部 分 。 后 面 的 章节 将 围绕 这 些 内 容 展 开 。 


1.1 信息 就 是 位 十 上 下 文 

hello 程序 的 生命 周期 是 从 一 个 源 程序 (或 者 说 源 文 件 ) 开 始 的 ， 即 程序 员 通过 编辑 器 创 
建 并 保存 的 文本 文件 ， 文 件 名 是 hello.c。 源 程序 实际 上 就 是 一 个 由 值 0 和 1 组 成 的 位 (又 称 
为 比特 ) 序 列 ，8 个 位 被 组 织 成 一 组 ， 称 为 字 节 。 每 个 字 节 表示 程序 中 的 某 些 文本 字符 。 
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大 部 分 的 现代 计算 机 系统 都 使 用 ASCII 标准 来 表示 文本 字符 ， 这 种 方式 实际 上 就 是 用 
一 个 唯一 的 单字 节 大 小 的 整数 值 S 来 表示 每 个 字符 。 比 如 ， 图 1-2 中 给 出 了 hello.c 程序 
的 ASCII 码 表 示 。 





# TL n © 下 u d e SP < S 七 d i O 
35 105 110 99 108 117 100 101 32 60 115 116 100 105 111 46 


h > \n \n i n 雹 SP nm a i n € ) \n 工 
104 62 10 10 105 110 116 32 109 97 105 110 40 41 10 123 


\n SP SP SP SP P 这 时 n 向 £ ( 出 h e 1 
10 32 32 32 32 112 114 105 110 116 102 40 34 104 101 108 
1 O 5 SP vw O rE 1 d SN n ) \n 5SP 
; 108 111 44 32 119 111 114 108 100 92 110 34 41 59 10 32 
| 
| SP SP SP rr e 世 u n SP 0 Bp \n } \n 





32 32 32 i114 101 116 117 114 110 32 48 59 10 125 10 





图 1-2 hello.c 的 ASCII 文 本 表示 


hello.c 程序 是 以 字 节 序列 的 方式 储存 在 文件 中 的 。 每 个 字 节 都 有 一 个 整数 值 ， 对 应 
于 某 些 字符 。 例 如 ， 第 一 个 字 节 的 整数 值 是 35， 它 对 应 的 就 是 字符 “# ”。 第 二 个 字 节 的 
整数 值 为 105， 它 对 应 的 字符 是 “i”， 依 此 类 推 。 注 意 ， 每 个 文本 行 都 是 以 一 个 看 不 见 的 
换行 符 “\n” 来 结束 的 ， 它 所 对 应 的 整数 值 为 10。 像 hello.c 这 样 只 由 ASCII 字符 构成 
的 文件 称 为 文本 文件 ， 所 有 其 他 文件 都 称 为 二 进 制 文件 。 

hello.c 的 表示 方法 说 明了 一 个 基本 思想 : 系统 中 所 有 的 信息 一 一 包括 磁盘 文件 、 内 
存 中 的 程序 、 内 存 中 存放 的 用 户 数 据 以 及 网 络 上 传送 的 数据 ， 都 是 由 一 串 比 特 表 示 的 。 区 
分 不 同 数据 对 象 的 唯一 方法 是 我 们 读 到 这 些 数据 对 象 时 的 上 下 文 。 比 如 ， 在 不 同 的 上 下 文 
中 ， 一 个 同样 的 字 节 序列 可 能 表示 一 个 整数 、 浮 点 数 、 字 符 串 或 者 机 器 指令 。 

作为 程序 员 ， 我 们 需要 了 解数 字 的 机 器 表示 方式 ， 因 为 它们 与 实际 的 整数 和 实数 是 不 
同 的 。 它 们 是 对 真 值 的 有 限 近 似 值 ， 有 时 候 会 有 意 想 不 到 的 行为 表现 。 这 方面 的 基本 原理 
将 在 第 2 章 中 详细 描述 。 


攻 台 C 编程 语言 的 起 源 
C 语言 是 贝尔 实验 室 的 Dennis Ritchie 于 1969 年 一 1973 年 间 创 建 的 。 美 国 国家 标准 学 
会 (American National Standards Institute，ANSI) 在 1989 年 颁布 了 ANSIC 的 标准 ， 后 来 C 
语言 的 标准 化 成 了 国际 标准 化 组 织 (International Standards Organization，ISO) 的 责任 。 这 
些 标准 定义 了 C 语 言 和 一 系列 函数 库 ， 即 所 谓 的 C 标准 库 。Kernighan 和 Ritchie 在 他 们 的 
经 典 著 作 中 描述 了 ANSI C， 这 本 著作 被 人 们 满怀 感情 地 称 为 “K&R”[61]。 用 Ritchie 的 话 
来 说 [92]，C 语言 是 “古怪 的 、 有 缺陷 的 ， 但 同时 也 是 一 个 巨大 的 成 功 ”。 为 什么 会 成 功 呢 ? 
e@ C 语言 与 Unix 操作 系统 关系 密切 。C 从 一 开始 就 是 作为 一 种 用 于 Unix 系统 的 程序 
语言 开发 出 来 的 。 大 部 分 Unix 内 核 (操作 系统 的 核心 部 分 )， 以 及 所 有 支撑 工具 和 
函数 库 都 是 用 CC 语言 编写 的 。20 世纪 70 年 代 后 期 到 80 年 代 初 期 ，Unix 风行 于 高 
等 院 校 ， 许 多 人 开始 接触 C 语言 并 喜欢 上 它 。 因 为 Unix 几乎 全 部 是 用 C 编写 的 ， 
它 可 以 很 方便 地 移植 到 新 的 机 器 上 ， 这 种 特点 为 C 和 Unix 赢得 了 更 为 广泛 的 支持 。 


加 ”有 其 他 编码 方式 用 于 表示 非 英语 类 语言 文本 。 具 体 讨论 参见 2. 1. 4 节 的 旁 注 。 
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e@ C 语言 小 而 简单 。C 语言 的 设计 是 由 一 个 人 而 非 一 个 协会 掌控 的 ， 因 此 这 是 一 个 


简洁 明了 、 没 有 什么 宛 殴 的 设计 。K&R 这 本 书 用 大 量 的 例子 和 练习 描述 了 完整 
的 C 语言 及 其 标准 库 ， 而 全 书 不 过 261 页 。C 语言 的 简单 使 它 相对 而 言 易于 学 
习 ， 也 易于 移植 到 不 同 的 计算 机 上 。 


e C 语言 是 为 实践 目的 设计 的 。C 语言 是 设计 用 来 实现 Unix 操作 系统 的 。 后 来 ， 


其 他 人 发 现 能 够 用 这 门 语言 无 障碍 地 编写 他 们 想 要 的 程序 。 


C 语言 是 系统 级 编程 的 首选 ， 同 时 它 也 非常 适用 于 应 用 级 程序 的 编写 。 然 而 ， 它 也 
并 非 适用 于 所 有 的 程序 员 和 所 有 的 情况 。C 语言 的 指针 是 造成 程序 员 困 惑 和 程序 错误 的 
一 个 常见 原因 。 同 时 ，C 语言 还 缺乏 对 非常 有 用 的 抽象 的 显 式 支持 ， 例 如 类 、 对 象 和 和 骨 
常 。 像 C++ 和 Java 这 样 针 对 应 用 级 程序 的 新 程序 语言 解决 了 这 些 问题 。 


小 艺 


程序 被 其 他 程序 翻译 成 不 同 的 格式 


hello 程序 的 生命 周期 是 从 一 个 高 级 C 语言 程序 开始 的 ， 因 为 这 种 形式 能 够 被 人 读 
懂 。 然 而 ,为 了 在 系统 上 运行 nello.c 程序 ， 每 条 C 语句 都 必须 被 其 他 程序 转化 为 一 系 
列 的 低级 机 器 语言 指令 。 然 后 这 些 指令 按照 一 种 称 为 可 执行 目标 程序 的 格式 打 好 包 ， 并 以 
二 进 制 磁盘 文件 的 形式 存放 起 来 。 目 标 程序 也 称 为 可 执行 目标 文件 。 

在 Unix 系统 上 ， 从 源 文件 到 目标 文件 的 转化 是 由 编译 器 驱动 程序 完成 的 : 


linux> gcc -0 hello hello.c 

在 这 里 ，GCC 编译 器 驱动 程序 读 取 源 程序 文件 hello.c， 并 把 它 翻译 成 一 个 可 执行 
目标 文件 hello。 这 个 翻译 过 程 可 分 为 四 个 阶段 完成 ， 如 图 1-3 所 示 。 执 行 这 四 个 阶段 的 
程序 ( 预 处 理 器 、 编 译 器 、 汇 编 器 和 链接 器 ) 一 起 构成 了 编译 系统 (compilation system)。 


BELNEF.G 


hello.c 

源 程序 ,修改 了 的 ;汇编 程序 可 重 定位 ”可 执行 

(文本 ) “ 源 程序 一 一 孔 (文本 ) ”目标 程序 - * 目标 程序 
(文本 ) ( 二进制 ) ( 二进制 ) 


















图 1-3 编译 系统 


预 处 理 阶 段 。 预 处 理 器 (cpp) 根 据 以 字符 # 开 头 的 命令 ， 修 改 原 始 的 C 程序 。 比 如 
hello.c 中 第 1 行 的 #include < stdio.h> 命令 告诉 预 处 理 器 读 取 系统 头 文件 
stdio.h 的 内 容 ， 并 把 它 直接 插入 程序 文本 中 。 结 果 就 得 到 了 另 一 个 C 程序 ， 通 常 
是 以 .i 作为 文件 扩展 名 。 

编译 阶段 。 编 译 器 (ccl) 将 文本 文件 hello.i 翻译 成 文本 文件 hello.s， 它 包含 一 
个 汇编 语言 程序 。 该 程序 包含 函数 main 的 定义 ， 如 下 所 示 : 


main: 


1 

2 subq $8, %rsp 

3 movl $.LCO, Wedi 
3 call puts 

5 movl $0, %eax 

6 addq $8, %rsp 

p4 ret 


定义 中 2~7 行 的 每 条 语句 都 以 一 种 文本 格式 描述 了 一 条 低级 机 器 语言 指令 。 
汇编 语言 是 非常 有 用 的 ， 因 为 它 为 不 同 高 级 语言 的 不 同 编译 器 提供 了 通用 的 输出 语 
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言 。 例 如 ，C 编译 器 和 Fortran 编译 器 产生 的 输出 文件 用 的 都 是 一 样 的 汇编 语言 。 

@ 汇编 阶段 。 接 下 来 ， 汇编 器 (as) 将 hello.s 翻译 成 机 器 语言 指令 ， 把 这 些 指令 打包 成 
一 种 叫做 可 重 定 位 目标 程序 (relocatable object program) 的 格式 ， 并 将 结果 保存 在 目标 
文件 hello.o 中 。hello.o 文 件 是 一 个 二 进 制 文件 ， 它 包含 的 17 个 字 节 是 函数 main 
的 指令 编码 。 如 果 我 们 在 文本 编辑 器 中 打开 hello.o 文 件 ， 将 看 到 一 堆 乱 码 。 l 

@ 链接 阶段 。 请 注意 ，hello 程序 调用 了 printf 函数 ， 它 是 每 个 C 编译 器 都 提供 的 
标准 C 库 中 的 一 个 函数 。printf 函数 存在 于 一 个 名 为 printf.o 的 单独 的 预 编 译 
好 了 的 目标 文件 中 ， 而 这 个 文件 必须 以 某 种 方式 合并 到 我 们 的 hello.o 程序 中 。 链 
接 器 (ld) 就 负责 处 理 这 种 合并 。 结 果 就 得 到 hello 文件， 它 是 一 个 可 执行 目标 文件 
(或 者 简称 为 可 执行 文件 )， 可 以 被 加 载 到 内 存 中 ， 由 系统 执行 。 


区 要 GNU 项 目 

GCC 是 GNU(GNU 是 GNU’s Not Unix 的 缩写 ) 项 目 开发 出 来 的 众多 有 用 工具 之 
一 。GNU 项 目 是 1984 年 由 了 Richard Stallman 发 起 的 一 个 免税 的 丰 善 项 目 。 该 项 目的 目 
标 非 常 宏大 ， 就 是 开发 出 一 个 完整 的 类 Unix 的 系统 ， 其 源 代码 能 够 不 受 限 制 地 被 修改 
和 传播 。GNU 项 目 已 经 开发 出 了 一 个 包含 Unix 操作 系统 的 所 有 主要 部 件 的 环境 ， 但 内 
核 除 外 ， 内 核 是 由 Linux 项 目 独 立 发 展 而 来 的 。GNU 环境 包括 EMACS 编辑 器 、GCC 
编译 器 、GDB 调试 器 、 汇 编 器 、 链 接 器 、 处 理 二 进 制 文件 的 工具 以 及 其 他 一 些 部 件 。 
GCC 编译 器 已 经 发 展 到 支持 许多 不 同 的 语言 ， 能 够 为 许多 不 同 的 机 器 生成 代码 。 支 持 
的 语言 包括 C、C++ 、EFortran、Java、Pascal、 面 向 对 象 C 语言 (Objective-C) 和 Ada。 

GNU 项 目 取 得 了 非凡 的 成 绩 ,， 但 是 却 常 常 被 忽略 。 现 代 开 放 源 码 运 动 (通常 和 
Linux 联系 在 一 起 ) 的 思想 起 源 是 GNU 项 目 中 自由 软件 (free software) 的 概念 。( 此 处 的 free 
为 自由 言论 (free speech) 中 的 “自由 ”之 意 ， 而 非 免 费 啤酒 (free beer) 中 的 “免费 ”之 意 。) 而 
且 ，Linux 如 此 受 欢 迎 在 很 大 程度 上 还 要 归功 于 GNU 工具 ， 它 们 给 Linux 内 核 提 供 了 环境 。 


1.3 了 解 编译 系统 如 何 工作 是 大 有 益处 的 


对 于 像 nello.c 这 样 简单 的 程序 ， 我 们 可 以 依靠 编译 系统 生成 正确 有 效 的 机 器 代码 。 
但 是 ， 有 一 些 重要 的 原因 促使 程序 员 必 须知 道 编译 系统 是 如 何 工作 的 。 

@ 优化 程序 性 能 。 现 代 编 译 器 都 是 成 熟 的 工具 ， 通 常 可 以 生成 很 好 的 代码 。 作 为 程序 
员 ， 我 们 无 须 为 了 写 出 高 效 代码 而 去 了 解 编译 器 的 内 部 工作 。 但 是 ， 为 了 在 C 程序 中 
做 出 好 的 编码 选择 ， 我 们 确实 需要 了 解 一 些 机 器 代码 以 及 编译 器 将 不 同 的 C 语句 转化 
为 机 器 代码 的 方式 。 比 如 ， 一 个 switch 语句 是 否 总 是 比 一 系列 的 if-else 语句 高 效 
得 多 ? 一 个 函数 调用 的 开销 有 多 大 ? while 循环 比 for 循环 更 有 效 吗 ? 指针 引用 比 数 
组 索引 更 有 效 吗 ? 为 什么 将 循环 求 和 的 结果 放 到 一 个 本 地 变量 中 ， 会 比 将 其 放 到 一 个 
通过 引用 传递 过 来 的 参数 中 ， 运 行 起 来 快 很 多 呢 ? 为 什么 我 们 只 是 简单 地 重新 排列 一 
下 算术 表达 式 中 的 括号 就 能 让 函数 运行 得 更 快 ? 

在 第 3 章 中 ， 我 们 将 介绍 x86-64， 最 近 几 代 Linux、Macintosh 和 Windows 计算 机 的 
机 器 语言 。 我 们 会 讲述 编译 器 是 怎样 把 不 同 的 C 语言 结构 翻译 成 这 种 机 器 语言 的 。 在 第 
5 章 中 ， 你 将 学 习 如 何 通 过 简单 转换 C 语言 代码 ， 帮 助 编译 器 更 好 地 完成 工作 ， 从 而 调 
整 C 程序 的 性 能 。. 在 第 6 章 中 ， 你 将 学 习 存储 器 系统 的 层次 结构 特性 ，C 语言 编译 器 如 
何 将 数组 存放 在 内 存 中 ， 以 及 C 程序 又 是 如 何 能 够 利用 这 些 知 识 从 而 更 高 效 地 运行 。 


第 工 章 ”计算 机 系统 漫游 5 





@ 理解 链接 时 出 现 的 错误 。 根 据 我 们 的 经 验 ， 一 些 最 令 人 困扰 的 程序 错误 往往 都 与 链 
接 器 操作 有 关 ， 尤 其 是 当 你 试图 构建 大 型 的 软件 系统 时 。 比 如 ， 链 接 器 报告 说 它 无 
法 解析 一 个 引用 ， 这 是 什么 意思 ? 静态 变量 和 全 局 变量 的 区 别 是 什么 ?如 果 你 在 不 
同 的 C 文 件 中 定义 了 名 字 相 同 的 两 个 全 局 变量 会 发 生 什么 ? 静态 库 和 动态 库 的 区 别 
是 什么 ? 我 们 在 命令 行 上 排列 库 的 顺序 有 什么 影响 ? 最 严重 的 是 ， 为 什么 有 些 链接 
错误 直到 运行 时 才 会 出 现 ? 在 第 7 章 中 ， 你 将 得 到 这 些 问题 的 答案 。 

e 避免 安全 漏洞 。 多 年 来 ,缓冲 区 溢出 错误 是 造成 大 多 数 网 络 和 Internet 服务 器 上 安 
全 漏洞 的 主要 原因 。 存 在 这 些 错 误 是 因为 很 少 有 程序 员 能 够 理解 需要 限制 从 不 受信 
任 的 源 接收 数据 的 数量 和 格式 。 学 习 安 全 编程 的 第 一 步 就 是 理解 数据 和 控制 信息 存 
储 在 程序 栈 上 的 方式 会 引起 的 后 果 。 作 为 学 习 汇编 语言 的 一 部 分 ， 我 们 将 在 第 3 章 
中 描述 堆栈 原理 和 缓冲 区 溢出 错误 。 我 们 还 将 学 习 程 序 员 、 编 译 器 和 操作 系统 可 以 
用 来 降低 攻击 威胁 的 方法 。 


1.4 处 理 器 读 并 解释 储存 在 内 存 中 的 指令 


此 刻 ，hello.c 源 程 序 已 经 被 编译 系统 翻译 成 了 可 执行 目标 文件 hello， 并 被 存放 在 
磁盘 上 。 要 想 在 Unix 系统 上 运行 该 可 执行 文件 ， 我 们 将 它 的 文件 名 输入 到 称 为 shell 的 应 
用 程序 中 : 

linux> ./hello 

hello, world 

linux> 

shell 是 一 个 命令 行 解释 器 ， 它 输出 一 个 提示 符 ， 等 待 输入 一 个 命令 行 ， 然 后 执行 这 
个 命令 。 如 果 该 命令 行 的 第 一 个 单词 不 是 一 个 内 置 的 shell 命令 ， 那 么 shell 就 会 假设 这 是 
一 个 可 执行 文件 的 名 字 ， 它 将 加 载 并 运行 这 个 文件 。 所 以 在 此 例 中 ，shell 将 加 载 并 运行 
hello 程序 ， 然 后 等 待 程序 终止 。hello 程序 在 屏幕 上 输出 它 的 消息 ， 然 后 终止 。shell 
随后 输出 一 个 提示 符 ， 等 待 下 一 个 输入 的 命令 行 。 


1.4.1 系统 的 硬件 组 成 


为 了 理解 运行 hello 程序 时 发 生 了 什么 ,我们 需要 了 解 一 个 典型 系统 的 硬件 组 织 ， 如 
图 1-4 所 示 。 这 张 图 是 近期 Intel 系统 产品 族 的 模型 ， 但 是 所 有 其 他 系统 也 有 相同 的 外 观 
和 特性 。 现 在 不 要 担心 这 张 图 很 复杂 一 一 我 们 将 在 本 书 分 阶段 对 其 进行 详尽 的 介绍 。 

1. 总 线 

贯穿 整个 系统 的 是 一 组 电子 管道 ， 称 作 总 线 ， 它 携带 信息 字 节 并 负责 在 各 个 部 件 间 传 
递 。 通 常 总 线 被 设计 成 传送 定 长 的 字 节 块 ， 也 就 是 字 (word) 。 字 中 的 字 节 数 ( 即 字 长 ) 是 一 
个 基本 的 系统 参数 ， 各 个 系统 中 都 不 尽 相 同 。 现 在 的 大 多 数 机 器 字 长 要 么 是 4 个 字 节 (32 
位 )， 要 么 是 8 个 字 节 (64 位 )。 本 书 中 ， 我 们 不 对 字 长 做 任何 固定 的 假设 。 相 反 ， 我 们 将 
在 需要 明确 定义 的 上 下 文中 具体 说 明 一 个 “ 字 ” 是 多 大 。 

2. MO 设备 

IO( 输 入 /输出 ?设备 是 系统 与 外 部 世界 的 联系 通道 。 我 们 的 示例 系统 包括 四 个 LO 设 
备 : 作为 用 户 输 入 的 键盘 和 鼠标 ， 作 为 用 户 输出 的 显示 器 ， 以 及 用 于 长 期 存储 数据 和 程序 
的 磁盘 驱动 器 (简单 地 说 就 是 磁盘 ) 。 最 开始 ， 可 执行 程序 hello 就 存放 在 磁盘 上 。 

每 个 LO 设备 都 通过 一 个 控制 器 或 适配器 与 1/O 总 线 相连 。 控 制 器 和 适配器 之 间 的 区 
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别 主要 在 于 它们 的 封装 方式 。 控 制 器 是 IO 设备 本 身 或 者 系统 的 主 印 制 电路 板 ( 通 常 称 作 
主板 ) 上 的 芯片 组 。 而 适配器 则 是 一 块 播 在 主板 揪 权 上 的 卡 。 无 论 如 何 ， 它 们 的 功能 都 是 
在 MO 总 线 和 1/O 设备 之 间 传递 信息 。 

CPU 








= 网 络 适配器 一 
i 


存储 在 磁盘 上 的 hello 
可 执行 文件 


图 1-4 一 个 典型 系统 的 硬件 组 成 
CPU: 中 央 处 理 单元 ; ALU: 算术 /逻辑 单元 ; PC: 程序 计数 器 ; USB: 通用 串 行 总 线 

第 6 章 会 更 多 地 说 明 磁 盘 之 类 的 MO 设备 是 如 何 工作 的 。 在 第 10 章 中 ， 你 将 学 习 如 
何在 应 用 程序 中 利用 Unix 1/O 接口 访问 设备 。 我 们 将 特别 关注 网 络 类 设备 ， 不 过 这 些 技 
术 对 于 其 他 设备 来 说 也 是 通用 的 。 

3. 主 存 

主 存 是 一 个 临时 存储 设备 ， 在 处 理 器 执行 程序 时 ， 用 来 存放 程序 和 程序 处 理 的 数据 。 从 
物理 上 来 说 ， 主 存 是 由 一 组 动态 随机 存 取 存储 器 (DRAM) 芯 片 组 成 的 。 从 逻辑 上 来 说 ， 存 储 
器 是 一 个 线性 的 字 节 数组 ， 每 个 字 节 都 有 其 唯一 的 地 址 (数组 索引 )， 这 些 地 址 是 从 零 开 始 
的 。 一 般 来 说 ， 组 成 程序 的 每 条 机 器 指令 都 由 不 同 数量 的 字 节 构成 。 与 C 程序 变量 相对 应 的 
数据 项 的 大 小 是 根据 类 型 变化 的 。 比 如 ， 在 运行 Linux 的 x86-64 机 器 上 ，short 类 型 的 数据 
需要 2 个 字 节 ，int 和 float 类 型 需要 4 个 字 节 ， 而 long 和 double 类 型 需要 8 个 字 节 。 

第 6 章 将 具体 介绍 存储 器 技术 ， 比 如 DRAM 芯片 是 如 何 工 作 的 ， 它们 又 是 如 何 组 合 
起 来 构成 主 存 的 。 

4. 处 理 器 

中 央 处 理 单元 (CPU) ， 简 称 处理 器 ， 是 解释 (或 执行 ) 存 储 在 主 存 中 指令 的 引 警 。 处 理 
器 的 核心 是 一 个 大 小 为 一 个 字 的 存储 设备 (或 寄存 器 )， 称 为 程序 计数 器 (PC)。 在 任何 时 
刻 ，PC 都 指向 主 存 中 的 某 条 机 器 语言 指令 ( 即 含 有 该 条 指令 的 地 址 ) 。8 

从 系统 通电 开始 ， 直 到 系统 断 电 ， 处 理 器 一 直 在 不 断 地 执行 程序 计数 器 指向 的 指令 ， 
再 更 新 程序 计数 器 ， 使 其 指向 下 一 条 指令 。 处 理 器 看 上 去 是 按照 一 个 非常 简单 的 指令 执行 
模型 来 操作 的 ， 这 个 模型 是 由 指令 集 架构 决定 的 。 在 这 个 模型 中 ， 指 令 按 照 严 格 的 顺序 执 
行 ， 而 执行 一 条 指令 包含 执行 一 系列 的 步 又 。 处 理 器 从 程序 计数 器 指向 的 内 存 处 读 取 指 


控制 器 图 形 适配器 
下 1 


鼠标 ”键盘 显示 器 








加 PC 也 普遍 地 被 用 来 作为 “个 人 计算 机 ”的 缩写 。 然 而 ， 两 者 之 间 的 区 别 应 该 可 以 很 清楚 地 从 上 下 文中 看 出 来 。 
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令 ， 解 释 指 令 中 的 位 ， 执 行 该 指令 指示 的 简单 操作 ， 然 后 更 新 PC， 使 其 指向 下 一 条 指令 ， 
而 这 条 指令 并 不 一 定 和 在 内 存 中 刚刚 执行 的 指令 相 邻 。 

这 样 的 简单 操作 并 不 多 ， 它们 围绕 着 主 存 、 寄 存 器 文件 (register file) 和 算术 /逻辑 单 
元 (ALU) 进 行 。 寄 存 器 文件 是 一 个 小 的 存储 设备 ， 由 一 些 单个 字 长 的 寄存 器 组 成 ， 每 个 
寄存 器 都 有 唯一 的 名 字 。ALU 计算 新 的 数据 和 地 址 值 。 下 面 是 一 些 简 单 操作 的 例子 ， 
CPU 在 指令 的 要 求 下 可 能 会 执行 这 些 操作 。 

e@ 加 载 : 从 主 存 复制 一 个 字 节 或 者 一 个 字 到 寄存 器 ， 以 覆盖 寄存 器 原来 的 内 容 。 

e 存储 : 从 寄存 器 复制 一 个 字 节 或 者 一 个 字 到 主 存 的 某 个 位 置 ， 以 覆盖 这 个 位 置 上 原 

来 的 内 容 。 

@ 操作 : 把 两 个 寄存 器 的 内 容 复制 到 ALU，ALU 对 这 两 个 字 做 算术 运算 ， 并 将 结果 

存放 到 一 个 寄存 器 中 ， 以 覆盖 该 寄存 器 中 原来 的 内 容 。 

e 跳 转 ， 从 指令 本 身 中 抽取 一 个 字 ， 并 将 这 个 字 复 制 到 程序 计数 器 (PC) 中 ， 以 覆盖 

PC 中 原来 的 值 。 

处 理 器 看 上 去 是 它 的 指令 集 架 构 的 简单 实现 ， 但 是 实际 上 现代 处 理 器 使 用 了 非常 复杂 
的 机 制 来 加 速 程序 的 执行 。 因 此 ， 我 们 将 处 理 器 的 指令 集 架 构 和 处 理 器 的 微 体 系 结构 区 分 
开 来 :指令 集 架 构 描 述 的 是 每 条 机 器 代码 指令 的 效果 ; 而 微 体系 结构 描述 的 是 处 理 器 实际 
上 是 如 何 实现 的 。 在 第 3 章 研 究 机 器 代码 时 ， 我 们 考虑 的 是 机 器 的 指令 集 架 构 所 提供 的 抽 
象 性 。 第 4 章 将 更 详细 地 介绍 处 理 器 实际 上 是 如 何 实 现 的 。 第 5 章 用 一 个 模型 说 明 现 代 处 
理 器 是 如 何 工 作 的 ， 从 而 能 预测 和 优化 机 器 语言 程序 的 性 能 。 


1.4. 2 ”运行 hello 程序 


前 面 简 单 描述 了 系统 的 硬件 组 成 和 操作 ， 现 在 开始 介绍 当 我 们 运行 示例 程序 时 到 底 发 
生 了 些 什 么 。 在 这 里 必须 省 略 很 多 细节 ， 稍 后 会 做 补充 ， 但 是 现在 我 们 将 很 满意 于 这 种 整 
体 上 的 描述 。 
”初始 时 ，shell 程序 执行 它 的 指令 ， 等 待 我 们 输入 一 个 命令 。 当 我 们 在 键盘 上 输入 字符 串 
“./hello” 后 ，shell 程序 将 字符 逐一 读 人 寄存 器 ， 再 把 它 存 放 到 内 存 中 ， 如 图 1-5 所 示 。 






由 


ee ee : 
”扩展 档 ， 留 待 

图 形 适配器 磁盘 控制 器 ee 
鼠标 ”键盘 ”显示 器 


用 户 输 入 
“hello” 








全 
及 


图 1-5 从 键盘 上 读 取 hello 命令 
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当 我 们 在 键盘 上 敲 回 车 键 时 ，shell 程序 就 知道 我 们 已 经 结束 了 命令 的 输入 。 然 后 
shell 执行 一 系列 指令 来 加 载 可 执行 的 hello 文件， 这 些 指令 将 hello 目标 文件 中 的 代码 
和 数据 从 磁盘 复制 到 主 存 。 数 据 包括 最 终 会 被 输出 的 字符 串 “hello, world\n”。 

利用 直接 存储 器 存 取 (DMA， 将 在 第 6 章 中 讨论 ) 技 术 ， 数 据 可 以 不 通过 处 理 器 而 直 
接 从 磁盘 到 达 主 存 。 这 个 步骤 如 图 1-6 所 示 。 


OPU 









寄存 器 文件 


2 
SE 





“hello, world\n” 
hello 代码 








Eee | 二 | es 
扩展 槽 ， 留 待 
网 络 适 配器 一 
类 的 设备 使 用 


USB 图 形 
控制 器 适配器 


鼠标 ”键盘 显示 器 





人 也 存储 在 磁盘 上 的 hello 
可 执行 文件 


图 1-6 ”从 磁盘 加 载 可 执行 文件 到 主 存 


一 旦 目标 文件 hello 中 的 代码 和 数据 被 加 载 到 主 存 ， 处 理 器 就 开始 执行 hello 程序 
的 main 程序 中 的 机 器 语言 指令 。 这 些 指 令 将 “hello, world\n” 字 符 串 中 的 字 节 从 主 存 
复制 到 寄存 器 文件 ， 再 从 寄存 器 文件 中 复制 到 显示 设备 ， 最 终 显 示 在 屏幕 上 。 这 个 步骤 如 
图 1-7 所 示 。 





CPU 


寄存 器 文件 
| 







“hello, world\n” 
hello 代码 















< 证 扩展 梢 ， 留待 
汉 网 络 适配器 一 
USB 图 形 > 
控制 器 适配器 全 
鼠标 ”键盘 显示 器 
吕 存储 在 磁盘 上 的 hel1 
hello, world\n 可 执行 文件 Ss 


图 1-7 将 输出 字符 串 从 存储 器 写 到 显示 器 
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1.5 高 速 缓存 至 关 重 要 


这 个 简单 的 示例 揭示 了 一 个 重要 的 问题 ， 即 系统 花费 了 大 量 的 时 间 把 信息 从 一 个 地 方 
挪 到 另 一 个 地 方 。hello 程序 的 机 器 指令 最 初 是 存放 在 磁盘 上 ， 当 程序 加 载 时 ， 它 们 被 复 
制 到 主 存 ; 当 处 理 器 运行 程序 时 ， 指 令 又 从 主 存 复制 到 处 理 器 。 相 似 地 ， 数 据 串 “hel - 
lo, world/n” 开 始 时 在 磁盘 上 ， 然 后 被 复制 到 主 存 ， 最 后 从 主 存 上 复制 到 显示 设备 。 从 
程序 员 的 角度 来 看 ， 这 些 复制 就 是 开销 ， 减 慢 了 程序 “真正 ”的 工作 。 因 此 ， 系 统 设计 者 
的 一 个 主要 目标 就 是 使 这 些 复制 操作 尽 可 能 快 地 完成 。 

根据 机 械 原理 ， 较 大 的 存储 设备 要 比较 小 的 存储 设备 运行 得 慢 ， 而 快速 设备 的 造价 远 高 
于 同类 的 低速 设备 。 比 如 说 ， tt 1000 倍 ， 但 是 对 
处 理 器 而 言 ， 从 磁盘 驱动 器 上 读 取 一 个 字 的 时 间 开 销 要 比 从 主 存 中 读 取 的 开销 大 1000 万 倍 。 

类 似 地 ， 一 个 典型 的 寄存 器 文件 只 存储 几 百 字 节 的 信息 ， 而 主 存 里 可 存放 几 十 亿 字 
节 。 然 而 ， 处 理 器 从 寄存 器 文件 中 读数 据 比 从 主 存 中 读 取 几乎 要 快 100 倍 。 更 麻烦 的 是 ， 
随 着 这 些 年 半导体 技术 的 进步 ， 这 种 处 理 器 与 主 存 之 间 的 差距 还 在 持续 增 大 。 加 快 处 理 器 
的 运行 速度 比 加 快 主 存 的 运行 速度 要 容易 和 便宜 得 多 。 

针对 这 种 处 理 器 与 主 存 之 间 的 差异 ， 系 统 设计 者 采用 了 更 小 更 快 的 存储 设备 ， 称 为 高 
速 缓存 存储 器 (cache memory， 简 称 为 cache 或 高 速 缓存 ) ， 作 为 暂时 的 集结 区 域 ， 存 放 处 
理 器 近期 可 能 会 需要 的 信息 。 图 1-8 展示 了 一 个 典型 系统 中 的 高 速 缓存 存储 器 。 位 于 处 理 
器 芯片 上 的 L1 高 速 缓存 的 容量 可 以 达到 数 万 字 节 ， 访 问 速度 几乎 和 访问 寄存 器 文件 一 样 
快 。 一 个 容量 为 数 十 万 到 数 百 万 字 节 的 更 大 的 L2 高 速 缓存 通过 一 条 特殊 的 总 线 连接 到 处 
理 器 。 进 程 访 问 L2 高 速 缓存 的 时 间 要 比 访问 Ll 高 速 缓存 的 时 间 长 5 倍 ， 但 是 这 仍然 比 访 
问 主 存 的 时 间 快 5 一 10 倍 。L1 和 L2 高 速 缓存 是 用 一 种 叫做 静态 随机 访问 存储 器 (SRAM) 
的 硬件 技术 实现 的 。 比 较 新 的 、 处 理 能 力 更 强大 的 系统 甚至 有 三 级 高 速 缓存 ; Ll1、L2 和 
L3。 系 统 可 以 获得 一 个 很 大 的 存储 器 ， 同 时 访问 速度 也 很 快 ， 原 因 是 利用 了 高 速 缓存 的 局 
部 性 原理 ， 即 程序 具有 访问 局 部 区 域 里 的 数据 和 代码 的 趋势 。 通 过 让 高 速 缓存 里 存放 可 能 
经 常 访问 的 数据 ， 大 部 分 的 内 存 操作 都 能 在 快速 的 高 速 缓存 中 完成 。 


CPU 芯片 








让 





| 主 存储 器 


图 1-8 高速 缓存 存储 器 
本 书 得 出 的 重要 结论 之 一 就 是 ， 意 识 到 高 速 缓存 存储 器 存在 的 应 用 程序 员 能 够 利用 高 速 组 
存 将 程序 的 性 能 提高 一 个 数量 级 。 你 将 在 第 6 章 里 学 习 这 些 重要 的 设备 以 及 如 何 利用 它们 。 
1.6 存储 设备 形成 层次 结构 


在 处 理 器 和 一 个 较 大 较 慢 的 设备 (例如 主 存 ) 之 间 插 和 人 一 个 更 小 更 快 的 存储 设备 (例如 
高 速 缓存 ) 的 想法 已 经 成 为 一 个 普遍 的 观念 。 实 际 上 ， 每 个 计算 机 系统 中 的 存储 设备 都 被 
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组 织 成 了 一 个 存储 器 层次 结构 ， 如 图 1-9 所 示 。 在 这 个 层次 结构 中 ， 从 上 至 下 ， 设 备 的 访 
问 速度 越 来 越 慢 、 容 量 越 来 越 大 ， 并 且 每 字 节 的 造价 也 越 来 越 便 宜 。 寄 存 器 文件 在 层次 结 
构 中 位 于 最 顶部 ， 也 就 是 第 0 级 或 记 为 L0。 这 里 我 们 展示 的 是 三 层 高 速 缓存 L1 到 L3， 
占据 存储 器 层次 结构 的 第 1 层 到 第 3 层 。 主 存在 第 4 层 ， 以 此 类 推 。 
















更 小 CPU 寄存 器 保存 来 自 高 速 缓存 
更 快 存储 器 的 字 
(每 字 节 ) 村 
二 
更 中 的 We 的 高 速 缓存 行 
存储 设备 ( SRAM ) he 
be Tr 的 高 速 缓存 行 
CSRAM, 13 高 速 组 存 保存 取 自主 存 
更 大 的 高 速 缓存 行 
L4: 主 存 
更 慢 (DRAM) 


主 存 保存 取 自 本 地 磁盘 
的 磁盘 块 


(每 字 节 ) 
EES: 二 级 存 信 
| (本 地 磁盘 ) 
存储 设备 
L6: 远程 二 级 存储 
( 分布 式 文件 系统 ，Web 服 务 器 ) 


图 1-9 一 个 存储 器 层次 结构 的 示例 


存储 器 层次 结构 的 主要 思想 是 上 一 层 的 存储 器 作为 低 一 层 存 储 器 的 高 速 缓存 。 因 此 ， 
寄存 器 文件 就 是 Ll 的 高 速 缓存 ，L1 是 L2 的 高 速 缓存 ，L2 是 L3 的 高 速 缓存 ，L3 是 主 存 
的 高 速 缓存 ， 而 主 存 又 是 磁盘 的 高 速 缓存 。 在 某 些 具有 分 布 式 文件 系统 的 网 络 系统 中 ， 本 
地 磁盘 就 是 存储 在 其 他 系统 中 磁盘 上 的 数据 的 高 速 缓存 。 

正如 可 以 运用 不 同 的 高 速 缓存 的 知识 来 提高 程序 性 能 一 样 ， 程 序 员 同样 可 以 利用 对 整 
个 存储 器 层次 结构 的 理解 来 提高 程序 性 能 。 第 6 章 将 更 详细 地 讨论 这 个 问题 。 


1.7 操作 系统 管理 硬件 
让 我 们 回 到 hello 程序 的 例子 。 当 shell 加 载 和 运行 hello 程序 时 ， 以 及 hello 程序 输 
Ra 


直接 访问 键盘 、 显 示 器 、 磁 盘 或 者 主 存 。 取 而 
代 之 的 是 ， 它 们 依靠 操作 系统 提供 的 服务 。 我 


们 可 以 把 操作 系统 看 成 是 应 用 程序 和 硬件 之 间 


本 地 磁盘 保存 取 自 远程 网 络 
服务 器 上 磁盘 的 文件 










插入 的 一 层 软 件 ， 如 图 1-10 所 示 。 所 有 应 用 图 1-10 计算 机 系统 的 分 层 视图 
程序 对 硬件 的 操作 尝试 都 必须 通过 操作 系统 。 进程 


[= A | 
操作 系统 有 两 个 基本 功能 : 〈1) 防 止 硬 


件 被 失控 的 应 用 程序 滥用 ;2) 向 应 用 程序 
提供 简单 一 致 的 机 制 来 控制 复杂 而 又 通常 大 Pa 


不 相同 的 低级 硬件 设备 。 操 作 系统 通过 几 个 
基本 的 抽象 概念 (进程 、 座 拟 内 存 和 文件 ) 来 


实现 这 两 个 功能 。 如 图 1-11 所 示 ， 文 件 是 对 图 1-11 操作 系统 提供 的 抽象 表示 
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IO 设备 的 抽象 表示 ， 虚 拟 内 存 是 对 主 存 和 磁盘 1/O 设备 的 抽象 表示 ， 进 程 则 是 对 处 理 
器 、 主 存 和 I/O 设备 的 抽象 表示 。 我 们 将 依次 讨论 每 种 抽象 表示 。 


EEC FOSR 和 际 丰 UK 珊 贡 

20 世纪 60 年 代 是 大 型 、 复 杂 操 作 系统 盛行 的 年 代 ， 比 如 IBM 的 OS/360 和 Honey- 
well 的 Multics 系统 。OS/360 是 历史 上 最 成 功 的 软件 项 目 之 一 ， 而 Multics 虽然 持续 存 
在 了 多 年 ， 却 从 来 没有 被 广泛 应 用 过 。 贝 尔 实验 室 曾 经 是 Multics 项 目的 最 初 参与 者 ， 
但 是 因为 考虑 到 该 项 目的 复杂 性 和 缺乏 进展 而 于 1969 年 退出 。 鉴 于 Mutics 项 目 不 恰 快 
的 经 历 ， 一 群 贝尔 实验 室 的 研究 人 员 Ken Thompson、Dennis Ritchie、Doug Mcll- 
roy 和 Joe Ossanna， 从 1969 年 开始 在 DEC PDP-7 计算 机 上 完全 用 机 器 语言 编写 了 一 个 
简单 得 多 的 操作 系统 。 这 个 新 系统 中 的 很 多 思想 ， 比 如 层次 文件 系统 、 作 为 用 户 级 进程 
的 shell 概念 ， 都 是 来 自 于 Multics， 只 不 过 在 一 个 更 小 、 更 简单 的 程序 包 里 实现 。1970 
年 ，Brian Kernighan 给 新 系统 命名 为 “Unix”， 这 也 是 一 个 双关 语 ， 瞳 指 “Multics” 的 
复杂 性 。1973 年 用 C 重 新 编写 其 内 核 ，1974 年 ，Unix 开始 正式 对 外 发 布 [93]。 

贝尔 实验 室 以 慷慨 的 条 件 向 学 校 提 供 源 代码 ， 所 以 Unix 在 大 专 院 校 里 获得 了 很 多 
支持 并 得 以 持续 发 展 。 最 有 影响 的 工作 发 生 在 20 世纪 70 年 代 晚 期 到 80 年 代 早 期 ， 在 
美国 加 州 大 学 伯克利 分 校 ， 研 究 人 员 在 一 系列 发 布 版 本 中 增加 了 虚拟 内 存 和 Internet 协 
议 ， 称 为 Unix 4. xBSD(Berkeley Software Distribution)。 与 此 同时 ， 贝 尔 实 验 室 也 在 
发 布 自己 的 版 本 ， 称 为 System V Unix。 其 他 厂商 的 版 本 ， 比 如 Sun Microsystems 的 
Solaris 系统 ， 则 是 从 这 些 原始 的 BSD 和 System V 版 本 中 衍生 而 来 。 

20 世纪 80 年 代 中 期 ，Unix 厂商 试图 通过 加 入 新 的 、 往 往 不 兼容 的 特性 来 使 它们 的 
程序 与 众 不同 ， 麻 烦 也 就 随 之 而 来 了 。 为 了 阻止 这 种 趋势 ，IEEE( 电 气 和 电子 工程 师 协 
会 ) 开 始 努 力 标 准 化 Unix 的 开发 ， 后 来 由 Richard Stallman 命名 为 “Posix”。 结 果 就 得 
到 了 一 系列 的 标准 ， 称 作 Posix 标准 。 这 套 标 准 涵盖 了 很 多 方面 ， 比 如 Unix 系统 调用 
的 C 语 言 接口 、shell 程序 和 工具 、 线 程 及 网 络 编程 。 最 近 ， 一 个 被 称 为 “标准 Unix 规 
范 ” 的 独立 标准 化 工作 已 经 与 Posix 一 起 创建 了 统一 的 Unix 系统 标准 。 这 些 标准 化 工 
作 的 结果 是 Unix 版 本 之 间 的 差异 已 经 基本 消失 。 





下 下 站 进程 


”” 像 hello 这 样 的 程序 在 现代 系统 上 运行 时 ， 操 作 系统 会 提供 一 种 假象 ， 就 好 像 系统 上 只 
有 这 个 程序 在 运行 。 程 序 看 上 去 是 独占 地 使 用 处 理 器 、 主 存 和 I/O 〇 设备 。 处 理 器 看 上 去 就 像 
在 不 间断 地 一 条 接 一 条 地 执行 程序 中 的 指令 ， 即 该 程序 的 代码 和 数据 是 系统 内 存 中 唯一 的 对 
象 。 这 些 假象 是 通过 进程 的 概念 来 实现 的 ， 进 程 是 计算 机 科学 中 最 重要 和 最 成 功 的 概念 之 一 。 

进程 是 操作 系统 对 一 个 正在 运行 的 程序 的 一 种 抽象 。 在 一 个 系统 上 可 以 同时 运行 多 个 
进程 ， 而 每 个 进程 都 好 像 在 独占 地 使 用 硬件 。 而 并 发 运行 ， 则 是 说 一 个 进程 的 指令 和 男 一 
个 进程 的 指令 是 交错 执行 的 。 在 大 多 数 系统 中 ， 需 要 运行 的 进程 数 是 多 于 可 以 运行 它们 的 
CPU 个 数 的 。 传 统 系统 在 一 个 时 刻 只 能 执行 一 个 程序 ， 而 先进 的 多 核 处 理 器 同时 能 够 执 
行 多 个 程序 。 无 论 是 在 单 核 还 是 多 核 系 统 中 ， 一 个 CPU 看 上 去 都 像 是 在 并 发 地 执行 多 个 
进程 ， 这 是 通过 处 理 器 在 进程 间 切 换 来 实现 的 。 操 作 系统 实现 这 种 交错 执行 的 机 制 称 为 上 
下 文 切换 。 为 了 简化 讨论 ， 我 们 只 考虑 包含 一 个 CPU 的 单 处 理 器 系统 的 情况 。 我 们 会 在 
1. 9.2 节 中 讨论 多 处 理 器 系统 。 
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操作 系统 保持 跟踪 进程 运行 所 需 的 所 有 状态 信息 。 这 种 状态 ， 也 就 是 上 下 文 ， 包 括 许 
多 信息 ， 比 如 PC 和 寄存 器 文件 的 当前 值 ， 以 及 主 存 的 内 容 。 在 任何 一 个 时 刻 ， 单 处 理 器 
系统 都 只 能 执行 一 个 进程 的 代码 。 当 操作 系统 决定 要 把 控制 权 从 当前 进程 转移 到 某 个 新 进 
程 时 ， 就 会 进行 上 下 文 切 换 ， 即 保存 当前 进程 的 上 下 文 、 恢 复 新 进程 的 上 下 文 ， 然 后 将 控 
制 权 传递 到 新 进程 。 新 进程 就 会 从 它 上 次 停止 的 地 方 开始 。 图 1-12 展示 了 示例 hello 程 
序 运行 场景 的 基本 理念 。 

示例 场景 中 有 两 个 并 发 的 进程 : shell 进程 和 hello 进程。 最 开始 ， 只 有 shell 进程 在 
运行 ， 即 等 待命 令 行 上 的 输入 。 当 我 们 让 它 运 行 hello 程序 时 ，shell 通过 调用 一 个 专门 
的 函数 ， 即 系统 调用 ， 来 执行 我 们 的 请 求 ， 系 统 调 用 会 将 控制 权 传 递 给 操作 系统 。 操 作 系 
统 保存 shell 进程 的 上 下 文 ， 创 建 一 个 新 的 hello 进程 及 其 上 下 文 ， 然 后 将 控制 权 传 给 新 
的 hello 进程 。hello 进程 终止 后 ， 操 作 系 统 恢复 shell 进程 的 上 下 文 ， 并 将 控制 权 传 回 
给 它 ，shell 进程 会 继续 等 待 下 一 个 命令 行 输 入 。 

如 图 1-12 所 示 ， 从 一 个 进程 到 另 一 个 进程 的 转换 是 由 操作 系统 内 核 (kernel) 管 理 的 。 
内 核 是 操作 系统 代码 常 驻 主 存 的 部 分 。 当 应 用 程序 需要 操作 系统 的 某 些 操作 时 ， 比 如 读 写 
文件 ， 它 就 执行 一 条 特殊 的 系统 调用 (system call) 指 令 ， 将 控制 权 传 递 给 内 核 。 然 后 内 核 
执行 被 请 求 的 操作 并 返回 应 用 程序 。 注 意 ， 内 核 不 是 一 个 独立 的 进程 。 相 反 ， 它 是 系统 管 
理 全 部 进程 所 用 代码 和 数据 结构 的 集合 。 


时 间 进程 A ”! ”进程 B 
, y | 用 户 代码 
read--> | 

人 人 人 人、 内核 代码 。 } 上 下 文 切换 

碰 盘 中 断 -> I 
Wm ee 内 核 代码 。”} 上 下 文 切换 

rea -=> 1 
y | 用 户 代码 


图 1-12 进程 的 上 下 文 切换 


实现 进程 这 个 抽象 概念 需要 低级 硬件 和 操作 系统 软件 之 间 的 紧密 合作 。 我 们 将 在 第 8 
章 中 揭示 这 项 工作 的 原理 ， 以 及 应 用 程序 是 如 何 创建 和 控制 它们 的 进程 的 。 


1.7.2 线程 


尽管 通常 我 们 认为 一 个 进程 只 有 单一 的 控制 流 ， 但 是 在 现代 系统 中 ， 一 个 进程 实际 上 
可 以 由 多 个 称 为 线程 的 执行 单元 组 成 ， 每 个 线程 都 运行 在 进程 的 上 下 文中 ， 并 共享 同样 的 
代码 和 全 局 数据 。 由 于 网 络 服务 器 中 对 并 行 处 理 的 需求 ， 线 程 成 为 越 来 越 重要 的 编程 模 
型 ， 因 为 多 线程 之 间 比 多 进程 之 间 更 容易 共享 数据 ， 也 因为 线程 一 般 来 说 都 比 进程 更 高 
效 。 当 有 多 处 理 器 可 用 的 时 候 ， 多 线程 也 是 一 种 使 得 程序 可 以 运行 得 更 快 的 方法 ， 我 们 将 
在 1. 9. 2 节 中 讨论 这 个 问题 。 在 第 12 章 中 ， 你 将 学 习 并 发 的 基本 概念 ， 包 括 如 何 写 线程 
化 的 程序 。 


1.7.3 虚拟 内 存 


虚拟 内 存 是 一 个 抽象 概念 ， 它 为 每 个 进程 提供 了 一 个 假象 ， 即 每 个 进程 都 在 独占 地 使 用 
主 存 。 每 个 进程 看 到 的 内 存 都 是 一 致 的 ， 称 为 虚拟 地 址 空间 。 图 1-13 所 示 的 是 Linux 进程 的 
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虚拟 地 址 空间 (其 他 Unix 系统 的 设计 也 与 此 类 似 )。 在 Linux 中 ， 地 址 空间 最 上 面 的 区 域 是 
保留 给 操作 系统 中 的 代码 和 数据 的 ， 这 对 所 有 进程 来 说 都 是 一 样 。 地 址 空间 的 底部 区 域 存放 
用 户 进程 定义 的 代码 和 数据 。 请 注意 ， 图 中 的 地 址 是 从 下 往 上 增 大 的 。 






内 核 虚 拟 内 存 上 用户 代码 不 可 见 的 
用 户 楼 内 存 
《运行 时 创建 的 ) 
printf 函 数 


运行 时 堆 


( 在 运行 时 由 malloc 创 建 的 ) 





从 hel1o 可 执行 
文件 加 载 进 来 的 


图 1-13 进程 的 虚拟 地 址 空间 


每 个 进程 看 到 的 虚拟 地 址 空间 由 大 量 准确 定义 的 区 构成 ， 每 个 区 都 有 专门 的 功能 。 在 
本 书 的 后 续 章 节 你 将 学 到 更 多 有 关 这 些 区 的 知识 ， 但 是 先 简单 了 解 每 一 个 区 是 非常 有 益 
的 。 我 们 从 最 低 的 地 址 开始 ， 逐 步 向 上 介绍 。 

@ 程序 代码 和 数据 。 对 所 有 的 进程 来 说 ， 代 码 是 从 同一 固定 地 址 开始 ， 紧 接着 的 是 和 
C 全 局 变量 相对 应 的 数据 位 置 。 代 码 和 数据 区 是 直接 按照 可 执行 目标 文件 的 内 容 初 
始 化 的 ， 在 示例 中 就 是 可 执行 文件 hello。 在 第 7 章 我 们 研究 链接 和 加 载 时 ， 你 会 
学 习 更 多 有 关 地 址 空间 的 内 容 。 

e 堆 。 代 码 和 数据 区 后 紧 随 着 的 是 运行 时 堆 。 代 码 和 数据 区 在 进程 一 开始 运行 时 就 被 
指定 了 大 小 ， 与 此 不 同 ， 当 调用 像 malloc 和 free 这 样 的 C 标准 库 函 数 时 ， 堆 可 
以 在 运行 时 动态 地 扩展 和 收缩 。 在 第 9 章 学 习 管理 虚拟 内 存 时 ， 我 们 将 更 详细 地 研 
究 堆 。 

@ 共享 库 。 大 约 在 地 址 空间 的 中 间 部 分 是 一 块 用 来 存放 像 C 标准 库 和 数学 库 这 样 的 共 
享 库 的 代码 和 数据 的 区 域 。 共 享 库 的 概念 非常 强大 ， 也 相当 难 懂 。 在 第 7 章 介 绍 动 
态 链接 时 ， 将 学 习 共 享 库 是 如 何 工 作 的 。 

e 栈 。 位 于 用 户 虚 拟 地 址 空间 顶部 的 是 用 户 栈 ， 编 译 器 用 它 来 实现 函数 调用 。 和 堆 一 
样 ， 用 户 栈 在 程序 执行 期 间 可 以 动态 地 扩展 和 收缩 。 特 别 地 ， 每 次 我 们 调用 一 个 函 
数 时 ， 栈 就 会 增长 ， 从 一 个 函数 返回 时 ， 栈 就 会 收缩 。 在 第 3 章 中 将 学 习 编 译 器 是 
如 何 使 用 栈 的 。 

@ 内 核 虚 拟 内 存 。 地 址 空间 顶部 的 区 域 是 为 内 核 保 留 的 。 不 允许 应 用 程序 读 写 这 个 区 
域 的 内 容 或 者 直接 调用 内 核 代 码 定 义 的 函数 。 相 反 ， 它 们 必须 调用 内 核 来 执行 这 些 
操作 。 
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虚拟 内 存 的 运作 需要 硬件 和 操作 系统 软件 之 间 精 密 复杂 的 交互 ， 包 括 对 处 理 器 生成 的 每 
个 地 址 的 硬件 翻译 。 基 本 思想 是 把 一 个 进程 虚拟 内 存 的 内 容 存储 在 磁盘 上 ， 然 后 用 主 存 作为 
磁盘 的 高 速 缓存 。 第 9 章 将 解释 它 如 何 工作 ， 以 及 为 什么 对 现代 系统 的 运行 如 此 重要 。 


1 es 


文件 就 是 字 节 序列 ， 仅 此 而 已 。 每 个 1/O 设备 ， 包 括 磁 盘 、 键 盘 、 显 示 器 ， 甚 至 网 
络 ， 都 可 以 看 成 是 文件 。 系 统 中 的 所 有 输入 输出 都 是 通过 使 用 一 小 组 称 为 Unix 1/O 的 系 
统 函 数 调用 读 写 文 件 来 实现 的 。 

文件 这 个 简单 而 精致 的 概念 是 非常 强大 的 ， 因 为 它 向 应 用 程序 提供 了 一 个 统一 的 视 
图 ， 来 看 待 系统 中 可 能 含有 的 所 有 各 式 各 样 的 IO 设备 。 例 如 ， 处 理 磁 盘 文 件 内 容 的 应 用 
程序 员 可 以 非常 幸福 ， 因 为 他 们 无 须 了 解 具体 的 磁盘 技术 。 进 一 步 说 ， 同 一 个 程序 可 以 在 
使 用 不 同 磁盘 技术 的 不 同系 统 上 运行 。 你 将 在 第 10 章 中 学 习 Unix 1/O。 


ER 世上 

1991 年 8 月， 芬兰 研究 生 Linus Torvalds 谨慎 地 发 布 了 一 个 新 的 类 Unix A 
统 内 核 ， 内 容 如 下 。 

来 自 : torvalds@klaava. Helsinki. FI(Linus Benedict Torvalds) 

新 闻 组 : comp. os. minix 

主题 : 在 minix 中 你 最 想 看 到 什么 ? 

摘要 : 关于 我 的 新 操作 系统 的 小 调查 

时 间 : 1991 年 8 月 25 日 20:57:08 GMT 

每 个 使 用 minix 的 朋友 ， 你 们 好 。 

我 正在 做 一 个 (免费 的 ) 用 在 386(486)AT 上 的 操作 系统 (只 是 业余 爱好 ， 它 不 会 像 
GNU 那样 庞大 和 专业 )。 这 个 想法 自 4 月份 就 开始 酝酿 ， 现 在 快要 完成 了 。 我 希望 得 到 
各 位 对 minix 的 任何 反馈 意见 ， 因 为 我 的 操作 系统 在 某 些 方面 与 它 相 类 似 ( 其 中 包括 相 
同 的 文件 系统 的 物理 设计 (因为 某 些 实际 的 原因 ))。 

我 现在 已 经 移植 了 bash(1.08) 和 gcc(1.40)， 并 且 看 上 去 能 运行 。 这 意味 着 我 需要 
儿 个 月 的 时 间 来 让 它 变 得 更 实用 一 些 ， 并 且 ， 我 想 要 知道 大 多 数 人 想 要 什么 特性 。 欢 迎 
任何 建议 ， 但 是 我 无 法 保证 我 能 实现 它们 。 :-) 

Linus (torvaldsekruuna.helsinki.fi) 


就 像 Torvalds 所 说 的 ， 他 创建 Linux 的 起 点 是 Minix， 由 Andrew S. Tanenbaum 出 
于 教育 目的 开发 的 一 个 操作 系统 L113]。 

接 下 来 ， 如 他 们 所 说 ， 这 就 成 了 历史 。Linux 逐渐 发 展 成 为 一 个 技术 和 文化 现象 。 
通过 和 GNU 项 目的 力量 结合 ，Linux 项 目 发 展 成 了 一 个 完整 的 、 符 合 Posix 标准 的 
Unix 操作 系统 的 版 本 ， 包 括 内 核 和 所 有 支撑 的 基础 设施 。 从 手持 设备 到 大 型 计算 机 ， 
Linux 在 范围 如 此 广泛 的 计算 机 上 得 到 了 应 用 。IBM 的 一 个 工作 组 其 至 把 Linux 移植 到 
了 一 块 腕 表 中 1! 


1.8 系统 之 间 利 用 网 络 通信 
系统 漫游 至 此 ， 我 们 一 直 是 把 系统 视 为 一 个 孤立 的 硬件 和 软件 的 集合 体 。 实 际 上 ， 现 
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代 系 统 经 常 通过 网 络 和 其 他 系统 连接 到 一 起 。 从 一 个 单独 的 系统 来 看 ， 网 络 可 视 为 一 个 
IO 设备 ， 如 图 1-14 所 示 。 当 系统 从 主 存 复制 一 串 字 节 到 网 络 适 配器 时 ， 数 据 流 经 过 网 络 
到 达 另 一 台 机 器 ， 而 不 是 比如 说 到 达 本 地 磁盘 驱动 器 。 相 似 地 ， 系 统 可 以 读 取 从 其 他 机 器 
发 送 来 的 数据 ， 并 把 数据 复制 到 自己 的 主 存 。 

CPU 芯片 
寄存 器 文件 


系统 总 线 内 存 总 线 
: 扩展 模 
she we em 让 2 0 “|| eg 


sa | 图 形 适 配 加 | 磁盘 控制 器 | | 网 络 适配器 
鼠标 ”键盘 。 ”显示 器 3 


图 1-14 网 络 也 是 一 种 /O 设备 


随 着 Internet 这 样 的 全 球 网 络 的 出 现 ， 从 一 台 主 机 复制 信息 到 另外 一 台 主 机 已 经 成 为 
计算 机 系统 最 重要 的 用 途 之 一 。 比 如 ， 像 电子 邮件 、 即 时 通信 、 万 维 网 、FTP 和 telnet 这 
样 的 应 用 都 是 基于 网 络 复制 信息 的 功能 。 

回 到 hello 示例 ， 我 们 可 以 使 用 熟悉 的 telnet 应 用 在 一 个 远程 主机 上 运行 hello 程 
序 。 假 设 用 本 地 主机 上 的 telnet 客户 端 连接 远程 主机 上 的 telnet 服务 器 。 在 我 们 登录 到 远 
程 主机 并 运行 shell 后 ， 远 端的 shell 就 在 等 待 接收 输入 命令 。 此 后 在 远 端 运行 hello 程序 
包括 如 图 1-15 所 示 的 五 个 基本 步骤 。 

1 用户 在 键盘 上 2. 客户 端 向 telnet 服 务 器 


输入 “hello” ”发送 字符 串 “hello 3. 服务 器 向 shell 发 送 字符 
本 地 telnet 远程 telnet 串 “hell1o”，shell 运 
; ee 服务 器 行 hello 程 序 并 将 输出 
5 端 在 显示 器 上 i 
ed 4. telnet 服 务 器 向 客户 端 发 送 Sod 
字符 串 字符 串 “he11lo world\n” 














图 1-15 利用 telnet 通过 网 络 远程 运行 hello 


当 我 们 在 telnet 客户 端 键 信 “hello” 字 符 串 并 敲 下 回 车 键 后 ， 客 户 端 软件 就 会 将 这 
个 字符 串 发 送 到 telnet 的 服务 器 。telnet 服务 器 从 网 络 上 接收 到 这 个 字符 串 后 ， 会 把 它 传 
递 给 远 端 shell 程序 。 接 下 来 ， 远 端 shell 运行 hello 程序 ， 并 将 输出 行 返回 给 telnet 服务 
器 。 最 后 ，telnet 服务 器 通过 网 络 把 输出 串 转 发 给 telnet 客户 端 ， 客 户 端 就 将 输出 串 输出 
到 我 们 的 本 地 终端 上 。 

这 种 客户 端 和 服务 器 之 间 交 互 的 类 型 在 所 有 的 网 络 应 用 中 是 非常 典型 的 。 在 第 11 章 
中 ， 你 将 学 会 如 何 构造 网 络 应 用 程序 ， 并 利用 这 些 知 识 创 建 一 个 简单 的 web 服务 器 。 
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1.9 重要 主题 


在 此 ， 小 结 一 下 我 们 旋风 式 的 系统 漫游 。 这 次 讨论 得 出 一 个 很 重要 的 观点 ， 那 就 是 系 
统 不 仅仅 只 是 硬件 。 系 统 是 硬件 和 系统 软件 互相 交织 的 集合 体 ， 它 们 必须 共同 协作 以 达到 
运行 应 用 程序 的 最 终 目的 。 本 书 的 余下 部 分 会 讲述 硬件 和 软件 的 详细 内 容 ， 通 过 了 解 这 些 
详细 内 容 ， 你 可 以 写 出 更 快速 、 更 可 靠 和 更 安全 的 程序 。 

作为 本 章 的 结束 ， 我 们 在 此 强调 几 个 贯穿 计算 机 系统 所 有 方面 的 重要 概念 。 我 们 会 在 
本 书 中 的 多 处 讨论 这 些 概 念 的 重要 性 。 


1.9.1 Amdahl 定律 


Gene Amdahl， 计 算 领 域 的 早期 先锋 之 一 ， 对 提升 系统 某 一 部 分 性 能 所 带 来 的 效果 做 
出 了 简单 却 有 见地 的 观察 。 这 个 观察 被 称 为 Amdahl 定律 (Amdahls law)。 该 定律 的 主要 
思想 是 ， 当 我 们 对 系统 的 某 个 部 分 加 速 时 ， 其 对 系统 整体 性 能 的 影响 取决 于 该 部 分 的 重要 
性 和 加 速 程度 。 若 系统 执行 某 应 用 程序 需要 时 间 为 Tus。 假 设 系统 某 部 分 所 需 执行 时 间 与 
该 时 间 的 比例 为 ， 而 该 部 分 性 能 提升 比例 为 &。 即 该 部 分 初始 所 需 时 间 为 aTos， 现 在 所 
需 时 间 为 (aTos)/k&。 因 此 ， 总 的 执行 时 间 应 为 | 

Tiow = (1 —a)Tout (aTos)/k = Tos[L(l—a) a/k] 
由 此 ， 可 以 计算 加 速 比 S 王 Tua/Tnew 为 


S 1 


(1 一 ca) 十 a/R 
举 个 例子 ， 考 虑 这 样 一 种 情况 ， 系 统 的 某 个 部 分 初始 耗 时 比例 为 60% (a 二 0.6)， 其 加 速 比 

例 因子 为 3 一 3) 。 则 我 们 可 以 获得 的 加 速 比 为 1/L0. 4 十 0. 6/3]=1. 67 倍 。 虽 然 我 们 对 系统 的 
一 个 主要 部 分 做 出 了 重大 改进 ， 但 是 获得 的 系统 加 速 比 却 明 显 小 于 这 部 分 的 加 速 比 。 这 就 是 
Amdahl 定律 的 主要 观点 一 一 要 想 显著 加 速 整 个 系统 ， 必 须 提 升 全 系统 中 相当 大 的 部 分 的 速度 。 


| 旁 注 | 表示 相对 性 能 

性 能 提升 最 好 的 表示 方法 就 是 用 比例 的 形式 Toa/Toew， 其 中 ，Tos 为 原始 系统 所 需 
时 间 ，Tew 为 修改 后 的 系统 所 需 时 间 。 如 果 有 所 改进 ， 则 比值 应 大 于 1。 我 们 用 后 组 
“xX” 来 表示 比例 ， 因 此 ，“2.2X” 读 作 “2.2 倍 ”。 

表示 相对 变化 更 传统 的 方法 是 用 百分比 ， 这 种 方法 适用 于 变化 小 的 情况 ， 但 其 定义 
是 模糊 的 。 应 该 等 于 100。《Tog 一 Toew)/Toew， 还 是 100。(Tas 一 Twow)/Tas， 还 是 其 他 
的 值 ? 此 外 ， 它 对 较 大 的 变化 也 没有 太 大 意义 。 与 简单 地 说 性 能 提升 2.2X 相 比 ,“ 性 能 
提升 了 120%” 更 难 理解 。 


练习 题 1. 1 假设 你 是 个 卡车 司机 ， 要 将 土豆 从 爱 达 荷 州 的 Boise 运送 到 明尼苏达 州 
的 Minneapolis， 全 程 2500 公里 。 在 限 速 范围 内 ， 你 估计 平均 速度 为 100 公里 /小 时 ， 
整个 行程 需要 25 个 小 时 。 

A. 你 听 到 新 闻 说 蒙 大 拿 州 刚刚 取消 了 限 速 ， 这 使 得 行程 中 有 1500 公里 卡车 的 速度 可 
以 为 150 公里 /小 时 。 那 么 这 对 整个 行程 的 加 速 比 是 多 少 ? 

B. 你 可 以 在 www. fasttrucks. com 网 站 上 为 自己 的 卡车 买 个 新 的 涡轮 增 压 器 。 网 站 现 
货 供 应 各 种 型 号 ， 不 过 速度 越 快 ， 价 格 越 高 。 如 果 想 要 让 整个 行程 的 加 速 比 为 
1.67X， 那 么 你 必须 以 多 快 的 速度 通过 蒙 大 拿 州 ? 


(1. 1) 
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练习 题 1. 2 公司 的 市 场 部 向 你 的 客户 承诺 ， 下 一 个 版 本 的 软件 性 能 将 改进 2X。 这 
项 任务 被 分 配给 你 。 你 已 经 确认 只 有 80%% 的 系统 能 够 被 改进 ， 那 么 ， 这 部 分 需要 被 
改进 多 少 ( 即 & 取 何 值 ) 才 能 达到 整体 性 能 目标 ? 

Amdahl 定律 一 个 有 趣 的 特殊 情况 是 考虑 & 趋向 于 ce 时 的 效果 。 这 就 意味 着 ， 我 们 可 
以 取 系 统 的 某 一 部 分 将 其 加 速 到 一 个 点 ， 在 这 个 点 上 ， 这 部 分 花费 的 时 间 可 以 忽略 不 计 。 
于 是 我 们 得 到 
Eee 
(l=sa) 
举 个 例子 ， 如 果 60% 的 系统 能 够 加 速 到 不 花 时 间 的 程度 ,我 们 获得 的 净 加 速 比 将 仍 只 有 
1/0.4=2.5X。 

Amdahl 定律 描述 了 改善 任何 过 程 的 一 般 原则 。 除 了 可 以 用 在 加 速 计算 机 系统 方面 之 
外 ， 它 还 可 以 用 在 公司 试图 降低 刀片 制造 成 本 ,或 学 生 想 要 提高 自己 的 绩 点 平均 值 等 方 
面 。 也 许 它 在 计算 机 世界 里 是 最 有 意义 的 ， 在 这 里 我 们 常常 把 性 能 提升 2 倍 或 更 高 的 比例 
因子 。 这 人 么 高 的 比例 因子 只 有 通过 优化 系统 的 大 部 分 组 件 才能 获得 。 


S- = (1. 2 


1.9.2 并 发 和 并 行 


数字 计算 机 的 整个 历史 中 ， 有 两 个 需求 是 驱动 进步 的 持续 动力 : 一 个 是 我 们 想 要 计算 
机 做 得 更 多 ， 另 一 个 是 我 们 想 要 计算 机 运行 得 更 快 。 当 处 理 器 能 够 同时 做 更 多 的 事情 时 ， 
这 两 个 因素 都 会 改进 。 我 们 用 的 术语 并 发 (concurrency) 是 一 个 通用 的 概念 ， 指 一 个 同时 具 
有 多 个 活动 的 系统 ; 而 术语 并 行 (parallelism) 指 的 是 用 并 发 来 使 一 个 系统 运行 得 更 快 。 并 
行 可 以 在 计算 机 系统 的 多 个 抽象 层次 上 运用 。 在 此 ， 我 们 按照 系统 层次 结构 中 由 高 到 低 的 
顺序 重点 强调 三 个 层次 。 

1. 线程 级 并 发 

构建 在 进程 这 个 抽象 之 上 ， 我 们 能 够 设计 出 同时 有 多 个 程序 执行 的 系统 ， 这 就 导致 了 
并 发 。 使 用 线程 ， 我 们 甚至 能 够 在 一 个 进程 中 执行 多 个 控制 流 。 自 20 世纪 60 年 代 初 期 出 
现时 间 共 享 以 来 ， 计 算 机 系统 中 就 开始 有 了 对 并 发 执行 的 支持 。 传 统 意 义 上 ， 这 种 并 发 执 
行 只 是 模拟 出 来 的 ， 是 通过 使 一 台 计 算 机 在 它 正在 执行 的 进程 间 快 速 切换 来 实现 的 ， 就 好 
像 一 个 杂 页 艺人 保持 多 个 球 在 空中 飞舞 一 样 。 这 种 并 发 形式 允许 多 个 用 户 同时 与 系统 交 
互 ， 例如 ， 当 许多 人 想 要 从 一 个 Web 服务 器 获取 页 面 时 。 它 还 允许 一 个 用 户 同时 从 事 多 
个 任务 ， 例 如 ， 在 一 个 窗口 中 开启 Web 浏览 器 ， 在 另 一 窗口 中 运行 字 处 理 器 ， 同 时 又 播 
放 音 乐 。 在 以 前 ， 即 使 处 理 器 必须 在 多 个 任务 间 切 换 ， 大 多 数 实际 的 计算 也 都 是 由 一 个 处 
理 器 来 完成 的 。 这 种 配置 称 为 单 处 理 器 系统 。 

当 构 建 一 个 由 单 操作 系统 内 核 控 制 的 多 处 理 
器 组 成 的 系统 时 ， 我 们 就 得 到 了 一 个 多 处 理 器 系 
统 。 其 实 从 20 世纪 80 年 代 开 始 ， 在 大 规模 的 计 
算 中 就 有 了 这 种 系统 ， 但 是 直到 最 近 ， 随 着 多 核 
处 理 器 和 超 线程 (hyperthreading) 的 出 现 ， 这 种 
系统 才 变 得 常见 。 图 1-16 给 出 了 这 些 不 同 处 理 
器 类 型 的 分 类 。 

多 核 处 理 器 是 将 多 个 CPU( 称 为 “ 核 ”) 集 成 四 全 加 中 条 十 半 辆 的 作 珊 ， 多 不 到 
到 一 个 集成 电路 芯片 上 。 图 1-17 描述 的 是 一 个 变 得 普遍 了 


所 有 的 处 理 器 





18 第 1 章 计算 机 系统 混 游 











典型 多 核 处 理 器 的 组 织 结构 ， 其 中 微 处 理 器 芯片 有 4 个 CPU 核 ， 每 个 核 都 有 自己 的 L1 和 
L2 高 速 缓存 ， 其 中 的 LI 高 速 缓存 分 为 两 个 部 分 一 一 一 个 保存 最 近 取 到 的 指令 ， 另 一 个 存 
放 数 据 。 这 些 核 共享 更 高 层次 的 高 速 缓存 ， 以 及 到 主 存 的 接口 。 工 业界 的 专家 预言 他 们 能 
够 将 几 十 个 、 最 终 会 是 上 百 个 核 做 到 一 个 芯片 上 。 

处 理 器 封装 包 


L2 统 一 的 高 速 缓存 L2 统 一 的 高 速 缓存 
L3 统 一 的 高 速 缓存 (所 有 的 核 共享 ) 





图 1-17 多 核 处 理 器 的 组 织 结构 。4 个 处 理 器 核 集 成 在 一 个 芯片 上 


超 线 程 ， 有 时 称 为 同时 多 线程 (simultaneous multi-threading)， 是 一 项 允许 一 个 CPU 
执行 多 个 控制 流 的 技术 。 它 涉及 CPU 某 些 硬件 有 多 个 备份 ， 比 如 程序 计数 器 和 寄存 器 文 
件 ， 而 其 他 的 硬件 部 分 只 有 一 份 ， 比 如 执行 浮 点 算术 运算 的 单元 。 常 规 的 处 理 器 需要 大 约 
20 000 个 时 钟 周期 做 不 同 线程 间 的 转换 ， 而 超 线程 的 处 理 器 可 以 在 单个 周期 的 基础 上 决定 
要 执行 哪 一 个 线程 。 这 使 得 CPU 能 够 更 好 地 利用 它 的 处 理 资源 。 比 如 ， 假 设 一 个 线程 必 
须 等 到 某 些 数 据 被 装载 到 高 速 绥 存 中 ， 那 CPU 就 可 以 继续 去 执行 男 一 个 线程 。 举 例 来 说 ， 
Intel Core i7 处 理 器 可 以 让 每 个 核 执 行 两 个 线程 ， 所 以 一 个 4 核 的 系统 实际 上 可 以 并 行 地 
执行 8 个 线程 。 

多 处 理 器 的 使 用 可 以 从 两 方面 提高 系统 性 能 。 首 先 ， 它 减少 了 在 执行 多 个 任务 时 模拟 
并 发 的 需要 。 正 如 前 面 提 到 的 ， 即 使 是 只 有 一 个 用 户 使 用 的 个 人 计算 机 也 需要 并 发 地 执行 
多 个 活动 。 其 次 ， 它 可 以 使 应 用 程序 运行 得 更 快 ， 当 然 ， 这 必须 要 求 程序 是 以 多 线程 方式 
来 书写 的 ， 这 些 线程 可 以 并 行 地 高 效 执行 。 因此， 虽然 并 发 原理 的 形成 和 研究 已 经 超过 50 
年 的 时 间 了 ， 但 是 多 核 和 超 线 程 系统 的 出 现 才 极 大 地 激发 了 一 种 愿望 ， 即 找到 书写 应 用 程 
序 的 方法 利用 硬件 开发 线程 级 并 行 性 。 第 12 章 会 更 深入 地 探讨 并 发 ， 以 及 使 用 并 发 来 提 
供 处 理 器 资源 的 共享 ， 使 程序 的 执行 允许 有 更 多 的 并 行 。 

2. 指令 级 并 行 

在 较 低 的 抽象 层次 上 ， 现 代 处 理 器 可 以 同时 块 行 多 条 指令 的 属性 称 为 指令 级 并 行 。 早 
期 的 微 处 理 器 ， 如 1978 年 的 Intel 8086， 需 要 多 个 (通常 是 3 一 10 个 ) 时 钟 周期 来 执行 一 条 
指令 。 最 近 的 处 理 器 可 以 保持 每 个 时 钟 周期 2~4 条 指令 的 执行 速率 。 其 实 每 条 指令 从 开 
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始 到 结束 需要 长 得 多 的 时 间 ， 大 约 20 个 或 者 更 多 周期 ， 但 是 处 理 器 使 用 了 非常 多 的 聪明 
技巧 来 同时 处 理 多 达 100 条 指令 。 在 第 4 章 中 ， 我 们 会 研究 流水 线 (pipelining) 的 使 用 。 在 
流水 线 中 ， 将 执行 一 条 指令 所 需要 的 活动 划分 成 不 同 的 步 又， 将 处 理 器 的 硬件 组 织 成 一 系 
列 的 阶段 ， 每 个 阶段 执行 一 个 步骤 。 这 些 阶段 可 以 并 行 地 操作 ， 用 来 处 理 不 同 指令 的 不 同 
部 分 。 我 们 会 看 到 一 个 相当 简单 的 硬件 设计 ， 它 能 够 达到 接近 于 一 个 时 钟 周 期 一 条 指令 的 
执行 速率 。 

如 果 处 理 器 可 以 达到 比 一 个 周期 一 条 指令 更 快 的 执行 速率 ， 就 称 之 为 超标 量 (super- 
scalar) 处 理 器 。 大 多 数 现代 处 理 器 都 支持 超标 量 操作 。 第 5 章 中 ， 我 们 将 描述 超标 量 处 理 
器 的 高 级 模型 。 应 用 程序 员 可 以 用 这 个 模型 来 理解 程序 的 性 能 。 然 后 ， 他 们 就 能 写 出 拥有 
更 高 程度 的 指令 级 并 行 性 的 程序 代码 ， 因 而 也 运行 得 更 快 。 

3. 单 指令 、 多 数据 并 行 

在 最 低层 次 上 ， 许 多 现代 处 理 器 拥有 特殊 的 硬件 ， 人 允许 一 条 指令 产生 多 个 可 以 并 行 执 
行 的 操作 ， 这 种 方式 称 为 单 指令 、 多 数据 ， 即 SIMD 并 行 。 例 如 ， 较 新 几 代 的 Intel 和 
AMD 处 理 器 都 具有 并 行 地 对 8 对 单 精度 浮 点 数 (C 数据 类 型 float) 做 加 法 的 指令 。 

提供 这 些 SIMD 指令 多 是 为 了 提高 处 理 影 像 、 声 音 和 视频 数据 应 用 的 执行 速度 。 虽 然 
有 些 编译 器 会 试图 从 C 程序 中 自动 抽取 SIMD 并 行 性 ， 但 是 更 可 靠 的 方法 是 用 编译 器 支持 
的 特殊 的 向 量 数据 类 型 来 写 程序 ， 比 如 GCC 就 支持 向 量 数据 类 型 。 作 为 对 第 5 章 中 比较 
通用 的 程序 优化 描述 的 补充 ， 我 们 在 网 络 旁 注 OPT:SIMD 中 描述 了 这 种 编程 方式 。 


1.9.3 计算 机 系统 中 抽象 的 重要 性 


抽象 的 使 用 是 计算 机 科学 中 最 为 重要 的 概念 之 一 。 例 如 ， 为 一 组 函数 规定 一 个 简单 的 
应 用 程序 接口 (APD 就 是 一 个 很 好 的 编程 习惯 ， 程 序 员 无 须 了 解 它 内 部 的 工作 便 可 以 使 用 
这 些 代码 。 不 同 的 编程 语言 提供 不 同形 式 和 等 级 的 抽象 支持 ， 例 如 Java 类 的 声明 和 C 语 
言 的 函数 原型 。 

”我 们 已 经 介绍 了 计算 机 系统 中 使 用 的 几 个 抽象 ， 如 图 1-18 所 示 。 在 处 理 器 里 ， 指 令 
集 架 构 提 供 了 对 实际 处 理 器 硬件 的 抽象 。 使 用 这 个 抽象 ， 机 器 代码 程序 表现 得 就 好 像 运行 
在 一 个 一 次 只 执行 一 条 指令 的 处 理 器 上 。 底 层 的 硬件 远 比 抽象 描述 的 要 复杂 精细 ， 它 并 行 
地 执行 多 条 指令 ， 但 又 总 是 与 那个 简单 有 序 的 模型 保持 一 致 。 只 要 执行 模型 一 样 ， 不 同 的 
处 理 器 实现 也 能 执行 同样 的 机 器 代码 ， 而 又 提供 不 同 的 开销 和 性 能 。 

虚拟 机 


文件 


图 1-18 计算 机 系统 提供 的 一 些 抽象 。 计 算 机 系统 中 的 一 个 重大 主题 就 是 
提供 不 同 层次 的 抽象 表示 ， 来 隐藏 实际 实现 的 复杂 性 
在 学 习 操作 系统 时 ， 我 们 介绍 了 三 个 抽象 : 文件 是 对 IO 设备 的 抽象 ， 虚 拟 内 存 是 对 
程序 存储 器 的 抽象 ， 而 进程 是 对 一 个 正在 运行 的 程序 的 抽象 。 我 们 再 增加 一 个 新 的 抽象 : 
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虚拟 机 ， 它 提供 对 整个 计算 机 的 抽象 ， 包 括 操 作 系 统 、 处 理 器 和 程序 。 虚 拟 机 的 思想 是 
IBM 在 20 世纪 60 年 代 提 出 来 的 ， 但 是 最 近 才 显示 出 其 管理 计算 机 方式 上 的 优势 ， 因 为 一 
些 计算 机 必须 能 够 运行 为 不 同 的 操作 系统 (例如 ，Microsoft Windows、MacOS 和 Linux) 
或 同一 操作 系统 的 不 同 版 本 设计 的 程序 。 

在 本 书后 续 的 章节 中 ， 我 们 会 具体 介绍 这 些 抽象 。 
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计算 机 系统 是 由 硬件 和 系统 软件 组 成 的 ， 它 们 共同 协作 以 运行 应 用 程序 。 计 算 机 内 部 的 信息 被 表示 
为 一 组 组 的 位 ， 它 们 依据 上 下 文 有 不 同 的 解释 方式 。 程 序 被 其 他 程序 翻译 成 不 同 的 形式 ， 开 始 时 是 
ASCII 文本， 然后 被 编译 器 和 链接 器 翻译 成 二 进 制 可 执行 文件 。 

处 理 器 读 取 并 解释 存放 在 主 存 里 的 二 进 制 指令 。 因 为 计算 机 花费 了 大 量 的 时 间 在 内 存 、LO 设备 和 
CPU 寄存 器 之 间 复 制 数据 ， 所 以 将 系统 中 的 存储 设备 划分 成 层次 结构 一 一 CPU 寄存 器 在 顶部 ， 接 着 是 多 
层 的 硬件 高 速 缓存 存储 器 、DRAM 主 存 和 磁盘 存储 器 。 在 层次 模型 中 ， 位 于 更 高 层 的 存储 设备 比 低层 的 
存储 设备 要 更 快 ， 单 位 比特 造价 也 更 高 。 层 次 结构 中 较 高 层次 的 存储 设备 可 以 作为 较 低层 次 设备 的 高 速 
缓存 。 通 过 理解 和 运用 这 种 存储 层次 结构 的 知识 ， 程 序 员 可 以 优化 C 程序 的 性 能 。 

操作 系统 内 核 是 应 用 程序 和 硬件 之 间 的 媒介 。 它 提供 三 个 基本 的 抽象 : 1) 文 件 是 对 I/O 设备 的 抽象 ; 
2) 虚 拟 内 存 是 对 主 存 和 磁盘 的 抽象 ;， 3) 进程 是 处 理 器 、 主 存 和 IVO 设备 的 抽象 。 

最 后 ， 网 络 提供 了 计算 机 系统 之 间 通 信 的 手段 。 从 特殊 系统 的 角度 来 看 ， 网 络 就 是 一 种 IO 设备 。 


参考 文献 说 明 


Ritchie 写 了 关于 早期 C 和 Unix 的 有 趣 的 第 一 手 资料 [91，92]。Ritchie 和 Thompson 提供 了 最 早出 
版 的 Unix 资料 [93]。Silberschatz、Galvin 和 Gagne[ 102] 提 供 了 关于 Unix 不 同 版 本 的 详尽 历史 。GNU 
(www. gnu. org) 和 Linux(www. linux. org) 的 网 站 上 有 大 量 的 当前 信息 和 历史 资料 。Posix 标准 可 以 在 线 


获得 (www. unix. org) 。 


练习 题 答案 


1.1 该 问题 说 明 Amdahl 定律 不 仅仅 适用 于 计算 机 系统 。 
A. 根据 公式 1.1， 有 a==0.6, k= 二 1.5。 更 直接 地 说 ， 在 蒙 大 拿 行驶 的 1500 公里 需要 10 个 小 时 ， 而 
其 他 行程 也 需要 10 个 小 时 。 则 加 速 比 为 25/(10 十 10)==1.25X。 
B. 根据 公式 1.1， 有 a=0.6， 要 求 S=1. 67， 则 可 算出 &。 更 直接 地 说 ， 要 使 行程 加 速度 达到 1.67X ,我 
们 必须 把 全 程 时 间 减 少 到 15 个 小 时 。 蒙 大 拿 以 外 仍 要 求 为 10 小时， 因此， 通过 蒙 大 拿 的 时 间 
就 为 5 个 小 时 。 这 就 要 求 行驶 速度 为 300 公里 /小 时 ， 对 卡车 来 说 这 个 速度 太 快 了 ! 
1.2 理解 Amdahl 定律 最 好 的 方法 就 是 解决 一 些 实例 。 本 题 要 求 你 从 特殊 的 角度 来 看 公式 1. 1。 
本 题 是 公式 的 简单 应 用 。 已 知 S=2，c 一 0.8， 则 计算 A: 


2 





3 1 
(1 一 0.8) 十 0.8/R 
0.4 十 1.6 从 一 1.0 

k= 2. 67 
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程序 结构 和 执行 


我 们 对 计算 机 系统 的 探索 是 从 学 习 计 算 机 本 身 开 始 的 ， 它 由 
处 理 器 和 存储 器 子 系统 组 成 。 在 核心 部 分 ， 我 们 需要 方法 来 表示 
基本 数据 类 型 ， 比 如 整数 和 实数 运算 的 近似 值 。 然 后 ， 我们 考虑 
机 器 级 指令 如 何 操作 这 样 的 数据 ， 以 及 编译 器 又 如 何 将 C 程序 番 
译 成 这 样 的 指令 。 接 下 来 ， 研 究 几 种 实现 处 理 器 的 方法 ， 帮 助 我 
们 更 好 地 了 解 硬 件 资 源 如 何 被 用 来 执行 指令 。 一 旦 理解 了 编译 器 
和 机 器 级 代码 ， 我 们 就 能 了 解 如 何 通过 编写 C 程序 以 及 编译 它们 
来 最 大 化 程序 的 性 能 。 本 部 分 以 存储 器 子 系统 的 设计 作为 结束 ， 
这 是 现代 计算 机 系统 最 复杂 的 部 分 之 一 。 

本 书 的 这 一 部 分 将 领 着 你 深入 了 解 如 何 表 示 和 执行 应 用 程序 。 
你 将 学 会 一 些 技 巧 ， 来 帮助 你 写 出 安全 、 可 靠 且 充分 利用 计算 资 
源 的 程序 。 
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信息 的 表示 和 处 理 





现代 计算 机 存储 和 处 理 的 信息 以 二 值 信号 表示 。 这 些微 不 足 道 的 二 进 制 数字 ， 或 者 称 
为 位 (bit) ， 形 成 了 数字 革命 的 基础 。 大 家 熟悉 并 使 用 了 1000 多 年 的 十 进 制 (以 10 为 基数 ) 
起 源 于 印度 ， 在 12 世纪 被 阿拉 伯 数 学 家 改进 ， 并 在 13 世纪 被 意大利 数学 家 Leonardo 
Pisano( 大 约 公 元 1170 一 1250， 更 为 大 家 所 熟知 的 名 字 是 Fibonacci) 带 到 西方 。 对 于 有 10 
个 手指 的 人 类 来 说 ， 使 用 十 进 制 表示 法 是 很 自然 的 事情 ， 但 是 当 构造 存储 和 处 理 信 息 的 机 
器 时 ， 二 进 制 值 工 作 得 更 好 。 二 值 信号 能 够 很 容易 地 被 表示 、 存 储 和 传输 ， 例 如 ， 可 以 表 
示 为 穿孔 卡片 上 有 洞 或 无 洞 、 导 线 上 的 高 电压 或 低 电 压 ， 或 者 顺 时 针 或 送 时 针 的 磁场 。 对 
二 值 信号 进行 存储 和 执行 计算 的 电子 电路 非常 简单 和 可 靠 ， 制 造 商 能 够 在 一 个 单独 的 硅 片 
上 集成 数 百 万 甚至 数 十 亿 个 这 样 的 电路 。 

孤立 地 讲 ， 单 个 的 位 不 是 非常 有 用 。 然 而 ， 当 把 位 组 合 在 一 起 ， 再 加 上 某 种 解释 (inter- 
pretation) ， 即 赋予 不 同 的 可 能 位 模式 以 含意 ， 我 们 就 能 够 表示 任何 有 限 集合 的 元 素 。 比 
如 ， 使 用 一 个 二 进 制 数字 系统 ， 我 们 能 够 用 位 组 来 编码 非 负 数 。 通 过 使 用 标准 的 字符 码 ， 
我 们 能 够 对 文档 中 的 字母 和 符号 进行 编码 。 在 本 章 中 ， 我 们 将 讨论 这 两 种 编码 ， 以 及 负数 
表示 和 实数 近似 值 的 编码 。 

我 们 研究 三 种 最 重要 的 数字 表示 。 无 符号 (unsigned) 编码 基于 传统 的 二 进 制 表示 法 ， 
表示 大 于 或 者 等 于 零 的 数字 。 补 码 (two’s-complement) 编 码 是 表示 有 符号 整数 的 最 常见 的 
方式 ， 有 符号 整数 就 是 可 以 为 正 或 者 为 负 的 数字 。 浮 点 数 (floating-point) 编 码 是 表示 实数 
的 科学 记 数 法 的 以 2 为 基数 的 版 本 。 计 算 机 用 这 些 不 同 的 表示 方法 实现 算术 运算 ， 例如 加 
法 和 乘法 ， 类 似 于 对 应 的 整数 和 实数 运算 。 

计算 机 的 表示 法 是 用 有 限 数量 的 位 来 对 一 个 数字 编码 ， 因 此 ， 当 结果 太 大 以 至 不 能 
示 时 ， 某 些 运算 就 会 溢出 (overflow)。 洲 出 会 导致 某 些 令 人 吃惊 的 后 果 。 例 如 ， 在 今天 的 
大 多 数 计算 机 上 (使 用 32 位 来 表示 数据 类 型 int)， 计 算 表 达 式 200*300*400*500 会 得 出 结果 
一 884 901 888。 这 违背 了 整数 运算 的 特性 ， 计 算 一 组 正 数 的 乘积 不 应 产生 一 个 负 的 结果 。 

另 一 方面 ， 整 数 的 计算 机 运算 满足 人 们 所 熟知 的 真正 整数 运算 的 许多 性 质 。 例 如 ， 利 
用 乘法 的 结合 律 和 交换 律 ， 计 算 下 面 任何 一 个 C 表达 式 ， 都 会 得 出 结果 一 884 901 888: 

(500 * 400) * (300 * 200) 

((500 * 400) * 300) * 200 

((200 * 500) * 300) * 400 

400 * (200* (300 * 500)) 

计算 机 可 能 没有 产生 期 望 的 结果 ， 但 是 至 少 它 是 一 致 的 ! 

浮 点 运算 有 完全 不 同 的 数学 属性 。 虽 然 溢 出 会 产生 特殊 的 值 十 ce ， 但 是 一 组 正 数 的 乘 
积 总 是 正 的 。 由 于 表示 的 精度 有 限 ， 浮 点 运算 是 不 可 结合 的 。 例 如 ， 在 大 多 数 机 器 上 ，C 
表达 式 (3.14+1e20) -le20 求 得 的 值 会 是 0.0， 而 3.14+ (le20-1le20) 求 得 的 值 会 是 3. 14。 
整数 运算 和 浮 点 数 运算 会 有 不 同 的 数学 属性 是 因为 它们 处 理 数字 表示 有 限 性 的 方式 不 
同 整数 的 表示 虽然 只 能 编码 一 个 相对 较 小 的 数值 范围 ， 但 是 这 种 表示 是 精确 的 ; 而 浮 
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点 数 虽 然 可 以 编码 一 个 较 大 的 数值 范围 ， 但 是 这 种 表示 只 是 近似 的 。 

通过 研究 数字 的 实际 表示 ， 我 们 能 够 了 解 可 以 表示 的 值 的 范围 和 不 同 算术 运算 的 属 
性 。 为 了 使 编写 的 程序 能 在 全 部 数值 范围 内 正确 工作 ， 而 且 具 有 可 以 跨越 不 同 机 器 、 操 作 
系统 和 编译 器 组 合 的 可 移植 性 ， 了 解 这 种 属性 是 非常 重要 的 。 后 面 我 们 会 讲 到 ， 大 量 计算 
机 的 安全 漏洞 都 是 由 于 计算 机 算术 运算 的 微妙 细节 引发 的 。 在 早期 ， 当 人 们 碰巧 触发 了 程 
序 漏洞 ， 只 会 给 人 们 带 来 一 些 不 便 , 但 是 现在 ， 有 众多 的 黑客 企图 利用 他 们 能 找到 的 任何 
漏洞 ， 不 经 过 授权 就 进入 他 人 的 系统 。 这 就 要 求 程序 员 有 更 多 的 责任 和 义务 ， 去 了 解 他 们 
的 程序 如 何 工作 ， 以 及 如 何 被 迫 产生 不 良 的 行为 。 

计算 机 用 几 种 不 同 的 二 进 制 表示 形式 来 编码 数值 。 随 着 第 3 章 进入 机 器 级 编程 ， 你 需 
要 熟悉 这 些 表示 方式 。 在 本 章 中 ， 我 们 描述 这 些 编码 ， 并 且 教 你 如 何 推出 数字 的 表示 。 

通过 直接 操作 数字 的 位 级 表示 ， 我 们 得 到 了 几 种 进行 算术 运算 的 方式 。 理 解 这 些 技术 对 
于 理解 编译 器 产生 的 机 器 级 代码 是 很 重要 的 ， 编 译 器 会 试图 优化 算术 表达 式 求 值 的 性 能 。 

我 们 对 这 部 分 内 容 的 处 理 是 基于 一 组 核心 的 数学 原理 的 。 从 编码 的 基本 定义 开始 ， 然 
后 得 出 一 些 属 性 ， 例 如 可 表示 的 数字 的 范围 、 它 们 的 位 级 表示 以 及 算术 运算 的 属性 。 我 们 
相信 从 这 样 一 个 抽象 的 观点 来 分 析 这 些 内容 ， 对 你 来 说 是 很 重要 的 ， 因 为 程序 员 需 要 对 计 
算 机 运算 与 更 为 人 熟悉 的 整数 和 实数 运算 之 间 的 关系 有 清晰 的 理解 。 


旁 注 | 怎样 阅读 本 章 

本 章 我 们 研究 在 计算 机 上 如 何 表示 数字 和 其 他 形式 数据 的 基本 属性 ， 以 及 计算 机 对 
这 些 数据 执行 操作 的 属性 。 这 就 要 求 我 们 深入 研究 数学 语言 ， 编 写 公 式 和 方程 式 ， 以 及 
展示 重要 属性 的 推导 。 

为 了 帮助 你 阅读 ， 这 部 分 内 容 安排 如 下 : 首先 给 出 以 数学 形式 表示 的 属性 ， 作 为 原 
理 。 然 后 ， 用 例子 和 非 形 式 化 的 讨论 来 解释 这 个 原理 。 我 们 建议 你 反复 阅读 原理 描述 和 
它 的 示例 与 讨论 ， 直 到 你 对 该 属性 的 说 明 内 容 及 其 重要 性 有 了 牢固 的 直觉 。 对 于 更 加 复 
杂 的 属性 ， 还 会 提供 推导 ， 其 结构 看 上 去 将 会 像 一 个 数学 证 明 。 虽 然 最 终 你 应 该 尝试 理 
解 这些 推 导 ， 但 在 第 一 次 阅读 时 你 可 以 跳 过 它们 。 

我 们 也 鼓励 你 在 阅读 正文 的 过 程 中 完成 练习 题 ， 这 会 促使 你 主动 学 习 ， 帮 助 你 理论 联 
系 实 际 。 有 了 这 些 例题 和 练习 题 作 为 背景 知识 ， 再 返回 推导 ， 你 将 发 现 理 解 起 来 会 容易 许 
多 。 同 时 ， 请 放心 ， 掌 握 好 高 中 代数 知识 的 人 都 具备 理解 这 些 内 容 所 需要 的 数学 技能 。 


C++ 编程 语言 建立 在 C 语言 基础 之 上 ， 它 们 使 用 完全 相同 的 数字 表示 和 和 运算。 本 章 
中 关于 C 的 所 有 内 容 对 C++ 都 有 效 。 另 一 方面 ，Java 语言 创造 了 一 套 新 的 数字 表示 和 运 
算 标准 。C 标准 的 设计 允许 多 种 实现 方式 ， 而 Java 标准 在 数据 的 格式 和 编码 上 是 非常 精确 
具体 的 。 本 章 中 多 处 着 重 介 绍 了 Java 支持 的 表示 和 运算 。 


旁 注 C 编程 语言 的 演变 
前 面 提 到 过 ，C 编程 语言 是 贝尔 实验 室 的 Dennis Ritchie 最 早 开 发 出 来 的 ， 目 的 是 
和 Unix 操作 系统 一 起 使 用 (Unix 也 是 贝尔 实验 室 开 发 的 )。 在 那个 时 候 ， 大 多 数 系 统 程 
序 ,， 例如 操作 系统 ， 为 了 访问 不 同 数据 类 型 的 低级 表示 ， 都 必须 大 量 地 使 用 汇编 代码 。 
比如 说 ， 像 malloc 库 函 数 提供 的 内 存 分 配 功能 ， 用 当时 的 其 他 高 级 语言 是 无 法 编写 的 。 
Brian Kernighan 和 Dennis Ritchie 的 著作 的 第 1 版 L60] 记 录 了 最 初 贝尔 实验 室 的 C 
语言 版 本 。 随 着 时 间 的 推移 ， 经 过 多 个 标准 化 组 织 的 努力 ，C 语言 也 在 不 断 地 演变 。1989 
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年 ， 美 国 国 家 标准 学 会 下 的 一 个 工作 组 推出 了 ANSI C 标准 ， 对 最 初 的 贝尔 实验 室 的 C 
语言 做 了 重大 修改 。ANSIC 与 贝尔 实验 室 的 C 有 了 很 大 的 不 同 ， 尤 其 是 函数 声明 的 方 
式 。Brian Kernighan 和 Dennis Ritchie 在 著作 的 第 2 版 L61] 中 描述 了 ANSI C， 这 本 书 
至 今 仍 被 公认 为 关于 C 语言 最 好 的 参考 手册 之 一 。 

国际 标准 化 组 织 接替 了 对 C 语 言 进行 标准 化 的 任务 ， 在 1990 年 推出 了 一 个 几乎 和 
ANSI C 一 样 的 版 本 ， 称 为 “ISO C90”。 该 组 织 在 1999 年 又 对 C 语言 做 了 更 新 ， 推 出 
“ISO C99”。 在 这 一 版 本 中 ， 引 入 了 一 些 新 的 数据 类 型 ， 对 使 用 不 符合 英语 语言 字符 的 
文本 字符 串 提 供 了 支持 。 更 新 的 版 本 2011 年 得 到 批准 ， 称 为 “ISO C11”， 其 中 再 次 添 
加 了 更 多 的 数据 类 型 和 特性 。 最 近 增 加 的 大 多 数 内 容 都 可 以 向 后 兼容 ， 这 意味 着 根据 早 
期 标准 (至 少 可 以 回溯 到 ISO C90) 编 写 的 程序 按 新 标准 编译 时 会 有 同样 的 行为 。 


GNU 编译 器 套装 (GNU Compiler Collec- GCC 命令 行 选项 





tion， GCC) 可 以 基于 不 同 的 命令 行 选项 ， 依照 GNU 89 无 ，-std=gnu89 
多 个 不 同 版 本 的 C 语言 规则 来 编译 程序 ， 如 图 2- ANSL ISO C90 -ansi，-std=c89 
1 所 示 。 比 如 ， 根 据 ISO C11 来 编译 程序 prog. ISO C99 -std=c99 

c， 我 们 就 使 用 命令 行 : SS ES 


linux> gcc -std=c11 prog.c 2-1 向 GCC 指定 不 同 的 C 语言 版 本 


编译 选项 -ansi 和 -std=c89 的 用 法 是 一 样 的 一 一 会 根据 ANSI 或 者 ISO C90 标准 来 编 
译 程序 。(C90 有 时 也 称 为 “C89”， 这 是 因为 它 的 标准 化 工作 是 从 1989 年 开始 的 。) 编 译 
选项 -std=c99 会 让 编译 器 按照 ISO C99 的 规则 进行 编译 。 

本 书 中 ， 没 有 指定 任何 编译 选项 时 ， 程 序 会 按照 基于 ISO C90 的 C 语言 版 本 进行 纺 
译 ， 但 是 也 包括 一 些 C99、C11 的 特性 ， 一 些 C++ 的 特性 ， 还 有 一 些 是 与 GCC 相关 的 
特性 。GNU 项 目 正 在 开发 一 个 结合 了 ISO C11 和 其 他 一 些 特性 的 版 本 ， 可 以 通过 命令 行 
选项 -std=gnull 来 指定 。( 目 前 ， 这 个 实现 还 未 完成 。) 今 后 ， 这 个 版 本 会 成 为 默认 的 版 本 。 


2.1 信息 存储 


大 多 数 计算 机 使 用 8 位 的 块 ， 或 者 字 节 (byte) ， 作 为 最 小 的 可 寻 址 的 内 存单 位 ， 而 不 
是 访问 内 存 中 单独 的 位 。 机 器 级 程序 将 内 存 视 为 一 个 非常 大 的 字 节 数组 ， 称 为 虚拟 内 存 
(virtual memory)。 内 存 的 每 个 字 节 都 由 一 个 唯一 的 数字 来 标识 ， 称 为 它 的 地 址 (ad- 
dress) ， 所 有 可 能 地 址 的 集合 就 称 为 虚拟 地 址 空间 (virtual address space)。 顾 名 思 义 ， 这 
个 虚拟 地 址 空间 只 是 一 个 展现 给 机 器 级 程序 的 概念 性 映像 。 实 际 的 实现 ( 见 第 9 章 ) 是 将 动 
态 随 机 访问 存储 器 (DRAM) 、 闪 存 、 磁 盘存 储 器 、 特 殊 硬 件 和 操作 系统 软件 结合 起 来 ， 为 
程序 提供 一 个 看 上 去 统一 的 字 节 数组 。 

在 接 下 来 的 几 章 中 ， 我 们 将 讲述 编译 器 和 运行 时 系统 是 如 何 将 存储 器 空间 划分 为 更 可 
管理 的 单元 ， 来 存放 不 同 的 程序 对 象 (program object)， 即 程序 数据 、 指 令 和 控制 信息 。 
可 以 用 各 种 机 制 来 分 配 和 管理 程序 不 同 部 分 的 存储 。 这 种 管理 完全 是 在 虚拟 地 址 空间 里 完 
成 的 。 例 如 ，C 语言 中 一 个 指针 的 值 ( 无 论 它 指向 一 个 整数 、 一 个 结构 或 是 某 个 其 他 程序 
对 象 ) 都 是 某 个 存储 块 的 第 一 个 字 节 的 虚拟 地 址 。C 编译 器 还 把 每 个 指针 和 类 型 信息 联系 
起 来 ， 这 样 就 可 以 根据 指针 值 的 类 型 ， 生 成 不 同 的 机 器 级 代码 来 访问 存储 在 指针 所 指向 位 置 
处 的 值 。 尽 管 C 编译 器 维护 着 这 个 类 型 信息 ， 但 是 它 生成 的 实际 机 器 级 程序 并 不 包含 关于 数 
据 类 型 的 信息 。 每 个 程序 对 象 可 以 简单 地 视 为 一 个 字 节 块 ， 而 程序 本 身 就 是 一 个 字 节 序列 。 





全 和 o 扩 让 过 5 医 二 沿 C 语言 中 指针 的 作用 

指针 是 C 语言 的 一 个 重要 特性 。 它 提供 了 引用 数据 结构 (包括 数组 ) 的 元 素 的 机 制 。 
与 变量 类 似 ， 指 针 也 有 两 个 方面 : 值 和 类 型 。 它 的 值 表示 某 个 对 象 的 位 置 ， 而 它 的 类 型 
表示 那个 位 置 上 所 存储 对 象 的 类 型 (比如 整数 或 者 浮 点 数 ) 。 

真正 理解 指针 需要 查看 它们 在 机 器 级 上 的 表示 以 及 实现 。 这 将 是 第 3 章 的 重点 之 
一 ，3. 10. 1 节 将 对 其 进行 深入 介绍 。 





2.1.1 十 六 进 制 表示 法 


一 个 字 节 由 8 位 组 成 。 在 二 进 制 表示 法 中 ， 它 的 值 域 是 00000000: ~11111111: 。 如 果 看 
成 十 进 制 整数 ， 它 的 值 域 就 是 0 一 255i 。 两 种 符号 表示 法 对 于 描述 位 模式 来 说 都 不 是 非常 
方便 。 二 进 制 表 示 法 太 宛 长 ， 而 十 进 制 表示 法 与 位 模式 的 互相 转化 很 麻烦 。 替 代 的 方法 是 ， 
以 16 为 基数 ， 或 者 叫做 十 六 进 制 (hexadecimal) 数 ， 来 表示 位 模式 。 十 六 进 制 (简写 为 “hex”) 
使 用 数字 “0” 一 “9” 以 及 字符 “A: 一 “F” 来 表示 16 个 可 能 的 值 。 图 2-2 展示 了 16 个 十 
六 进 制 数字 对 应 的 十 进 制 值 和 二 进 制 值 。 用 十 六 进 制 书写 ， 一 个 字 节 的 值 域 为 00s 一 FFie 。 

十 六 进 制 数字 0 


十 进 制 值 0 1 
二 进 制 值 0000 0001 0010 0011 0100 0101 0110 0111 


十 六 进 制 数字 8 9 A B C D E F 
十 进 制 值 8 9 10 11 12 13 14 15 
二 进 制 值 1000 1001 1010 1011 1100 1101 1110 1111 





图 2-2 十 六 进 制 表示 法 。 每 个 十 六 进 制 数字 都 对 16 个 值 中 的 一 个 进行 了 编码 


在 C 语 言 中 ， 以 0x 或 0x 开头 的 数字 常量 被 认为 是 十 六 进 制 的 值 。 字 符 “A” 一 “下 
既 可 以 是 大 写 ， 也 可 以 是 小 写 。 例 如 ， 我 们 可 以 将 数字 FA1D37Bie 写 作 0xFR1D37B， 或 者 
0xfald37b， 甚 至 是 大 小 写 混合 ， 比 如 ，0xFalD37b。 在 本 书 中 ， 我 们 将 使 用 C 表示 法 来 
表示 十 六 进 制 值 。 

编写 机 器 级 程序 的 一 个 常见 任务 就 是 在 位 模式 的 十 进 制 、 二 进 制 和 十 六 进 制 表示 之 间 
人 工 转换 。 二 进 制 和 十 六 进 制 之 间 的 转换 比较 简单 直接 ， 因 为 可 以 一 次 执行 一 个 十 六 进 制 
数字 的 转换 。 数 字 的 转换 可 以 参考 如 图 2-2 所 示 的 表 。 一 个 简单 的 窍 门 是 ， 记 住 十 六 进 制 
数字 A、C 和 下 相应 的 十 进 制 值 。 而 对 于 把 十 六 进 制 值 B、D 和 下 转 换 成 十 进 制 值 ， 则 可 
以 通过 计算 它们 与 前 三 个 值 的 相对 关系 来 完成 。 

比如 ， 假 设 给 你 一 个 数字 0x173A4c。 可 以 通过 展开 每 个 十 六 进 制 数 字 ， 将 它 转换 为 
二 进 制 格式 ， 如 下 所 示 : 


十 六 进 制 1 » 3 A 4 fe: 
二 进 制 0001 Oil 0011 1010 0100 1100 


这 样 就 得 到 了 二 进 制 表示 000101110011101001001100。 

反 过 来 ， 如 果 给 定 一 个 二 进 制 数字 1111001010110110110011， 可 以 通过 首先 把 它 分 为 
每 4 位 一 组 来 转换 为 十 六 进 制 。 不 过 要 注意 ， 如 果 位 总 数 不 是 4 的 倍数 ， 最 左边 的 一 组 可 
以 少 于 4 位 ， 前面 用 0 补足 。 然 后 将 每 个 4 位 组 转换 为 相应 的 十 六 进 制 数 字 : 

二 进 制 J 1100 1010 TiO 1011 0011 

十 六 进 制 3 区 入 D B 3 
有 练习 题 2. 1 完成 下 面 的 数字 转换 : 











A. 将 0x39A7F8 转换 为 二 进 制 。 

B. 将 二 进 制 1100100101111011 转换 为 十 六 进 制 。 

C. 将 0xD5E4C 转换 为 二 进 制 。 

D. 将 二 进 制 1001101110011110110101 转换 为 十 六 进 制 。 

当 值 zx 是 2 的 非 负 整数 次 罕 时 ， 也 就 是 z= 二 2*， 我们 可 以 很 容易 地 将 z 写成 十 六 进 
制 形式 ， 只 要 记 住 xz 的 二 进 制 表示 就 是 1 后 面 跟 个 0。 十 六 进 制 数 字 0 代表 4 个 二 进 制 
0。 所 以 ， 当 nn 表示 成 i 十 47 的 形式 ， 其 中 0 过 i 过 3， 我们 可 以 把 xz 写成 开头 的 十 六 进 制 数 
字 为 1(i 二 0)、2(i 二 1)、4(i 二 2) 或 者 8(i 二 3)， 后面 跟 随 着 j 个 十 六 进 制 的 0。 比 如 ，zx= 
2048 王 2 ,我 们 有 n= 二 11= 二 3 十 4，2， 从 而 得 到 十 六 进 制 表示 0x800。 
认可 练习 题 2.2 填写 下 表 中 的 空白 项 ， 给 出 2 的 不 同 次 畦 的 二 进 制 和 十 六 进 制 表示 : 

2" (十 六 进 制 ) 














人 人 
JE 
十 进 制 和 十 六 进 制 表示 之 间 的 转换 需要 使 用 乘法 或 者 除法 来 处 理 一 般 情 况 。 将 一 个 十 
进 制 数字 z 转换 为 十 六 进 制 ， 可 以 反复 地 用 16 除 zx， 得 到 一 个 商 dg 和 一 个 余数 >， 也 就 是 
Z 一 g4。16 十 rr。 然 后 ， 我 们 用 十 六 进 制 数 字 表 示 的 > 作为 最 低位 数字 ， 并 且 通 过 对 9 反复 
进行 这 个 过 程 得 到 剩 下 的 数字 。 人 例如， 考虑 十 进 制 314 156 的 转换 
314 156 王 19 634。16 十 12 (C) 
19 634 王 1227。16 十 2 (2) 
1227 二 76。16 十 11 (B) 
76 二 4。16 十 12 (C) 
4 二 0。16 十 4 (4) 
从 这 里 ， 我 们 能 读 出 十 六 进 制 表示 为 0x4CB2C。 
反 过 来 ， 将 一 pp 我 们 可 以 用 相应 的 16 的 寡 乘 以 每 
个 十 六 进 制 数字 。 上 比如， 给 定数 字 0x7AF， 我 们 计算 它 对 应 的 十 进 制 值 为 7，16? 十 10。 
16 十 15 王 7。256 十 10。16 十 15 王 1792 十 160 十 15 王 1967 。 
证 可 练习 题 2.3 一 个 字 节 可 以 用 两 个 十 六 进 制 数字 来 表示 。 填 写 下 表 中 缺失 的 项 ， 给 出 
不 同 字 节 模式 的 十 进 制 、 二 进 制 和 十 六 进 制 值 : 
二 进 制 
0000 0000 




















0011 0111 
1000 1000 
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区 了 十 进 制 和 十 六 进 制 间 的 转换 

，。 较 大 数值 的 十 进 制 和 十 六 进 制 之 间 的 转换 ， 最 好 是 让 计算 机 或 者 计算 器 来 完成 。 有 大 

量 的 工具 可 以 完成 这 个 工作 。 一 个 简单 的 方法 就 是 利用 任何 标准 的 搜索 引 掌 ， 比 如 查询 : 
把 0xabcd 转换 为 十 进 制 数 

或 

把 123 用 十 六 进 制 表示 。 

记 练习 题 2. 4 不 将 数字 转换 为 十 进 制 或 者 二 进 制 ， 试 着 解答 下 面 的 算术 题 ， 答 案 要 用 
十 六 进 制 表示 。 提 示 : 只 要 将 执行 十 进 制 加 法 和 减法 所 使 用 的 方法 改 成 以 16 为 基数 。 
A. 0x503c+0x8= 
B. 0x503c-0x40= 
C，0x503c+64= 
D. 0x50ea-0x503c= 


2.1.2 字数 据 大 小 


每 台 计 算 机 都 有 一 个 字 长 (word size) ， 指 明 指 针 数 据 的 标 称 大 小 (nominal size) 。 因 为 
虚拟 地 址 是 以 这 样 的 一 个 字 来 编码 的 ， 所 以 字 长 决定 的 最 重要 的 系统 参数 就 是 虚拟 地 址 空 
间 的 最 大 大 小 。 也 就 是 说 ， 对 于 一 个 字 长 为 ww 位 的 机 器 而 言 ， 虚 拟 地 址 的 范围 为 0~2* 一 1， 
程序 最 多 访问 2* 个 字 节 。 

最 近 这 些 年 ， 出 现 了 大 规模 的 从 32 位 字 长 机 器 到 64 位 字 长 机 器 的 迁移 。 这 种 情况 首先 出 
现在 为 大 型 科学 和 数据 库 应 用 设计 的 高 端 机 器 上 ， 之 后 是 台式 机 和 笔记 本 电脑 ， 最 近 则 出 现在 
智能 手机 的 处 理 器 上 。32 位 字 长 限制 虚拟 地 址 空间 为 4 千 兆 字 节 (写作 4GB) ， 也 就 是 说 ， 刚 刚 
超过 4X10" 字 节 。 扩 展 到 64 位 字 长 使 得 虚拟 地 址 空间 为 16EB， 大 约 是 1. 84X108 字 节 。 

大 多 数 64 位 机 器 也 可 以 运行 为 32 位 机 器 编译 的 程序 ， 这 是 一 种 向 后 兼容 。 因 此 ， 举 
例 来 说 ， 当 程序 prog.c 用 如 下 伪 指 令 编 译 后 

linux> gcc -m32 prog.c 
该 程序 就 可 以 在 32 位 或 64 位 机 器 上 正确 运 0 I 
行 。 另 一 方面 ， 若 程序 用 下 述 伪 指令 编 译 
那 就 只 能 在 64 位 机 器 上 运行 。 因此， 我 
们 将 程序 称 为 “32 位 程序 ”或 “64 位 和 
序 ” 时 ， 区 别 在 于 该 程序 是 如 何 编译 的 ， jlong |unsigned long | 4 | 8 | 
Er rr 


计算 机 和 编译 器 支持 多 种 不 同方 式 编 
码 的 数字 格式 ， 如 不 同 长 度 的 整数 和 浮 点 
数 。 比 如 ， 许 多 机 器 都 有 处 理 单个 字 节 的 
指令 ， 也 有 处 理 表 示 为 2 字 节 、4 字 节 或 
者 8 字 节 整数 的 指令 ， 还 有 些 指令 支持 表 
示 为 4 字 节 和 8 字 节 的 浮 点 数 。 图 2-3 基本 C 数据 类 型 的 典型 大 小 (以 字 节 为 单位 )。 

C 语言 支持 整数 和 浮 点 数 的 多 种 数据 分 配 的 字 节 数 受 程序 是 如 何 编译 的 影响 而 变化 。 
格式 。 图 2-3 展示 了 为 C 语言 各 种 数据 类 本 图 给 出 的 是 32 位 和 64 位 程序 的 典型 什 














型 分 配 的 字 节 数 。( 我 们 在 2. 2 节 讨 论 C 标准 保证 的 字 节 数 和 典型 的 字 节 数 之 间 的 关系 。) 
有 些 数据 类 型 的 确切 字 节 数 依赖 于 程序 是 如 何 被 编译 的 。 我 们 给 出 的 是 32 位 和 64 位 程序 
的 典型 值 。 整 数 或 者 为 有 符号 的 ， 即 可 以 表示 负数 、 零 和 正 数 ; 或 者 为 无 符号 的 ， 即 只 能 
表示 非 负 数 。C 的 数据 类 型 char 表示 一 个 单独 的 字 节 。 尽 管 “char” 是 由 于 它 被 用 来 存 
储 文本 串 中 的 单个 字符 这 一 事实 而 得 名 ， 但 它 也 能 被 用 来 存储 整数 值 。 数 据 类 型 short、 
int 和 long 可 以 提供 各 种 数据 大 小 。 即 使 是 为 64 位 系统 编译 ， 数 据 类 型 int 通常 也 只 有 
4 个 字 节 。 数 据 类 型 long 一 般 在 32 位 程序 中 为 4 字 节 ， 在 64 位 程序 中 则 为 8 字 节 。 

为 了 避免 由 于 依赖 “典型 ”大 小 和 不 同 编译 器 设置 带 来 的 奇怪 行为 ，ISO C99 引入 了 
一 类 数据 类 型 ， 其 数据 大 小 是 固定 的 ， 不 随 编 译 器 和 机 器 设置 而 变化 。 其 中 就 有 数据 类 型 
int32 t 和 int64 t， 它 们 分 别 为 4 个 字 节 和 8 个 字 节 。 使 用 确定 大 小 的 整数 类 型 是 程序 
员 准 确 控制 数据 表示 的 最 佳 途径 。 

大 部 分 数据 类 型 都 编码 为 有 符号 数值 ， 除 非 有 前 级 关键 字 unsigneqd 或 对 确定 大 小 的 
数据 类 型 使 用 了 特定 的 无 符号 声明 。 数 据 类 型 char 是 一 个 例外 。 尽 管 大 多 数 编译 器 和 机 
器 将 它们 视 为 有 符号 数 ， 但 C 标准 不 保证 这 一 点 。 相 反 ， 正 如 方 括号 指示 的 那样 ， 程 序 员 
应 该 用 有 符号 字符 的 声明 来 保证 其 为 一 个 字 节 的 有 符号 数值 。 不 过 ， 在 很 多 情况 下 ， 程 序 
行为 对 数据 类 型 char 是 有 符号 的 还 是 无 符号 的 并 不 敏感 。 | 

对 关键 字 的 顺序 以 及 包括 还 是 省 略 可 选 关键 字 来 说 ，C 语言 允许 存在 多 种 形式 。 比 
如 ， 下 面 所 有 的 声明 都 是 一 个 意思 : 

unsigned long 

unsigned long int 

long unsigned 

long unsigned int 


我 们 将 始终 使 用 图 2-3 给 出 的 格式 。 

图 2-3 还 展示 了 指针 (例如 一 个 被 声明 为 类 型 为 “char * ”的 变量 ) 使 用 程序 的 全 字 
长 。 大 多 数 机 器 还 支持 两 种 不 同 的 浮 点 数 格式 : 单 精度 (在 C 中 声明 为 float) 和 双 精 度 
(在 C 中 声明 为 double) 。 这 些 格式 分 别 使 用 4 字 节 和 8 字 节 。 


Ef 节 6 和 者 = 蕴 攻 才 增 ”声明 指针 
对 于 任何 数据 类 型 ， 上 声明 
Twpy 

表明 p 是 一 个 指针 变量 ， 指 向 一 个 类 型 为 本 的 对 象 。 例 如 ， 
char *p; 


就 将 一 个 指针 声明 为 指向 一 个 char 类 型 的 对 象 。 


程序 员 应 该 力图 使 他 们 的 程序 在 不 同 的 机 器 和 编译 器 上 可 移植 。 可 移植 性 的 一 个 方面 就 
是 使 程序 对 不 同 数据 类 型 的 确切 大 小 不 敏感 。C 语言 标准 对 不 同 数据 类 型 的 数字 范围 设置 了 
下 界 ( 这 点 在 后 面 还 将 讲 到 )， 但 是 却 没有 上 界 。 因 为 从 1980 年 左右 到 2010 年 左右 ，32 位 机 
器 和 32 位 程序 是 主流 的 组 合 ， 许 多 程序 的 编写 都 假设 为 图 2-3 中 32 位 程序 的 字 节 分 配 。 随 
着 64 位 机 器 的 日 益 普及 ， 在 将 这 些 程序 移植 到 新 机 器 上 时 ， 许 多 隐藏 的 对 字 长 的 依赖 性 就 
会 显现 出 来 ， 成 为 错误 。 比 如 ， 许 多 程序 员 假 设 一 个 声明 为 int 类 型 的 程序 对 象 能 被 用 来 存储 
一 个 指针 。 这 在 大 多 数 32 位 的 机 器 上 能 正常 工作 ， 但 是 在 一 台 64 位 的 机 器 上 却 会 导致 问题 。 
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2.1.3 寻 址 和 字 节 顺序 

对 于 跨越 多 字 节 的 程序 对 象 ， 我 们 必须 建立 两 个 规则 : 这 个 对 象 的 地 址 是 什么 ， 以 及 
在 内 存 中 如 何 排列 这 些 字 节 。 在 几乎 所 有 的 机 器 上 ， 多 字 节 对 象 都 被 存储 为 连续 的 字 节 序 
列 ， 对 象 的 地 址 为 所 使 用 字 节 中 最 小 的 地 址 。 例 如 ， 假 设 一 个 类 型 为 int 的 变量 x 的 地 址 
为 0x100， 也 就 是 说 ， 地 址 表达 式 &x 的 值 为 0x100。 那 么 ，( 假 设 数据 类 型 int 为 32 位 表 
示 )x 的 4 个 字 节 将 被 存储 在 内 存 的 0x100、0x101、0x102 和 0x103 位置 。 

排列 表示 一 个 对 象 的 字 节 有 两 个 通用 的 规则 。 考 虑 一 个 ww 位 的 整数 ， 其 位 表示 为 [x1， 
zu-2，"…，Z1，Zo]， 其 中 x。_1 是 最 高 有 效 位 ， 而 z 是 最 低 有 效 位 。 假 设 ww 是 8 的 倍数 ， 这 
些 位 就 能 被 分 组 成 为 字 节 ， 其 中 最 高 有 效 字 节 包 含 位 L[z。: ，xzu-:，…，zu-sj]， 而 最 低 有 效 
字 节 包含 位 Lx; ，ze，…，z]， 其 他 字 节 包含 中 间 的 位 。 某 些 机 器 选择 在 内 存 中 按照 从 最 低 
有 效 字 节 到 最 高 有 效 字 节 的 顺序 存储 对 象 ， 而 另 一 些 机 器 则 按照 从 最 高 有 效 字 节 到 最 低 有 效 
字 节 的 顺序 存储 。 前 一 种 规则 一 一 最 低 有 效 字 节 在 最 前 面 的 方式 ， 称 为 小 端 法 (little endian) 。 
后 一 种 规则 一 一 最 高 有 效 字 节 在 最 前 面 的 方式 ， 称 为 大 端 法 (big endian) 。 

假设 变量 x 的 类 型 为 int， 位 于 地 址 0x100 处 ， 它 的 十 六 进 制 值 为 0x01234567。 地 
址 范围 0x100 一 0x103 的 字 节 顺序 依赖 于 机 器 的 类 型 : 


大 端 法 

0x100 0x101 0x102 0x103 
小 端 法 

0x100 Ox101 0x102 0x103 


注意 ， 在 字 0x01234567 中 ， 高 位 字 节 的 十 六 进 制 值 为 0x01， 而 低位 字 节 值 为 0x67。 

. 大 多 数 Intel 兼容 机 都 只 用 小 端 模式 。 另 一 方面 ，IBM 和 Oracle( 从 其 2010 年 收购 
Sun Microsystems 开始 ) 的 大 多 数 机 器 则 是 按 大 端 模式 操作 。 注 意 我 们 说 的 是 “大 多 数 ”。 
这 些 规 则 并 没有 严格 按照 企业 界限 来 划分 。 比 如 ，IBM 和 Oracle 制造 的 个 人 计算 机 使 用 
的 是 Intel 兼容 的 处 理 器 ， 因 此 使 用 小 端 法 。 许 多 比较 新 的 微 处 理 器 是 双 端 法 (bi-endian)， 
也 就 是 说 可 以 把 它们 配置 成 作为 大 端 或 者 小 端的 机 器 运行 。 然 而 ， 实 际 情况 是 : 一 旦 选择 
了 特定 操作 系统 ， 那 么 字 节 顺序 也 就 固定 下 来 。 比 如 ， 用 于 许多 移动 电话 的 ARM 微 处 理 
器 ， 其 硬件 可 以 按 小 端 或 大 端 两 种 模式 操作 ， 但 是 这 些 芯 片上 最 常见 的 两 种 操作 系统 一 一 
Android( 来 自 Google) 和 IOS( 来 自 Apple) 却 只 能 运行 于 小 端 模式 。 

令 人 吃惊 的 是 ， 在 哪 种 字 节 顺序 是 合适 的 这 个 问题 上 ， 人 们 表现 得 非常 情绪 化 。 实 际 
上 ， 术 语 “little endian( 小 端 )” 和 “big endian( 大 端 ) ”出自 Jonathan Swift 的 《 格 利 佛 游 
记 》(Gulliver’s Travels) 一 书 ， 其 中 交战 的 两 个 派别 无 法 就 应 该 从 哪 一 端 ( 小 端 还 是 大 端 ) 
打开 一 个 半熟 的 鸡蛋 达成 一 致 。 就 像 鸡 蛋 的 问题 一 样 ， 选 择 何 种 字 节 顺序 没有 技术 上 的 理 
由 ， 因 此 争论 沦 为 关于 社会 政治 论题 的 争论 。 只 要 选择 了 一 种 规则 并 且 始 终 如 一 地 坚持 ， 
对 于 哪 种 字 节 排序 的 选择 都 是 任意 的 。 


图“ 的 天 


以 下 是 Jonathan Swift 在 1726 年 关于 大 小 端 之 争 历 史 的 描述 : 





oon 我 下 面 要 告诉 你 的 是 ，Lilliput 和 Blefuscu 这 两 大 强国 在 过 去 36 个 月 里 一 直 
在 苦战 。 战 争 开 始 是 由 于 以 下 的 原因 : 我 们 大 家 都 认为 ， 吃 鸡蛋 前 ， 原 始 的 方法 是 打破 
鸡蛋 较 大 的 一 端 ， 可 是 当今 皇帝 的 祖父 小 时 候 吃 鸡蛋 ， 一 次 按 古 法 打 鸡 蛋 时 碰巧 将 一 个 
手指 弄 破 了 ， 因 此 他 的 父亲 ， 当 时 的 皇帝 ， 就 下 了 一 道 救 令 ， 命令 全 体 臣 民 吃 鸡蛋 时 打 
破 鸡 蛋 较 小 的 一 端 ， 违 令 者 重 罚 。 老 百姓 们 对 这 项 命令 极为 反感 。 历 史 告 诉 我 们 ， 由 此 
曾 发 生 过 六 次 叛乱 ， 其 中 一 个 皇帝 送 了 命 ， 另 一 个 和 对 了 王位 。 这 些 叛乱 大 多 都 是 由 Ble- 
fuscu 的 国王 大 臣 们 炉 动 起 来 的 。 叛 乱 平息 后 ， 流 亡 的 人 总 是 逃 到 那个 帝国 去 寻 救 避难 。 
据 估 计 ， 先 后 几 次 有 11 000 人 情愿 受 死 也 不 肯 去 打破 鸡蛋 较 小 的 一 端 。 关 于 这 一 争端 ， 
曾 出 版 过 几 百 本 大 部 著作 ， 不 过 大 端 派 的 书 一 直 是 受 禁 的 ， 法 律 也 规定 该 派 的 任何 人 不 
得 做 官 。 (此 段 译文 摘自 网 上 菏 剑 锋 译 的 《 格 利 佛 游记 ) 第 一 卷 第 4 章 。) 

在 他 那个 时 代 ，Swift 是 在 讽刺 英国 (Lilliput) 和 法 国 (Blefuscu) 之 间 持 续 的 冲突 。 
Danny Cohen， 一 位 网 络 协 议 的 早期 开创 者 ， 第 一 次 使 用 这 两 个 术语 来 指 代 字 节 顺序 
[24]， 后 来 这 个 术语 被 广泛 接纳 了 。 


对 于 大 多 数 应 用 程序 员 来 说 ， 其 机 器 所 使 用 的 字 节 顺序 是 完全 不 可 见 的 。 无 论 为 哪 种 
类 型 的 机 器 所 编译 的 程序 都 会 得 到 同样 的 结果 。 不 过 有 时 候 ， 字 节 顺 序 会 成 为 问题 。 首 先 
是 在 不 同类 型 的 机 器 之 间 通 过 网 络 传送 二 进 制 数据 时 ， 一 个 常见 的 问题 是 当 小 端 法 机 器 产 
生 的 数据 被 发 送 到 大 端 法 机 器 或 者 反 过 来 时 ， 接 收 程序 会 发 现 ， 字 里 的 字 节 成 了 反 序 的 。 
为 了 避免 这 类 问题 ， 网 络 应 用 程序 的 代码 编写 必须 遵守 已 建立 的 关于 字 节 顺序 的 规则 ， 以 
确保 发 送 方 机 器 将 它 的 内 部 表示 转换 成 网 络 标准 ， 而 接收 方 机 器 则 将 网 络 标准 转换 为 它 的 
内 部 表示 。 我 们 将 在 第 11 章 中 看 到 这 种 转换 的 例子 。 

第 二 种 情况 是 ， 当 阅读 表示 整数 数据 的 字 节 序列 时 字 节 顺序 也 很 重要 。 这 通常 发 生 在 
检查 机 器 级 程序 时 。 作 为 一 个 示例 ， 从 某 个 文件 中 摘出 了 下 面 这 行 代 码 ， 该 文件 给 出 了 一 
个 针对 Intel x86-64 处 理 器 的 机 器 级 代码 的 文本 表示 : 

4004d3: 01 05 43 Ob 20 00 add %eax,0x200b43(%Trip) 


这 一 行 是 由 反 汇 编 器 (disassembler) 生 成 的 ， 反 汇编 器 是 一 种 确定 可 执行 程序 文件 所 表示 
的 指令 序列 的 工具 。 我 们 将 在 第 3 章 中 学 习 有 关 这 些 工具 的 更 多 知识 ， 以 及 怎样 解释 像 这 
样 的 行 。 而 现在 ， 我 们 只 是 注意 这 行 表述 的 意思 是 : 十 六 进 制 字 节 串 01 05 43 0b 20 00 是 
一 条 指令 的 字 节 级 表示 ， 这 条 指令 是 把 一 个 字 长 的 数据 加 到 一 个 值 上 ， 该 值 的 存储 地 址 由 
0x200b43 加 上 当前 程序 计数 器 的 值得 到 ， 当 前 程序 计数 器 的 值 即 为 下 一 条 将 要 执行 指令 
的 地 址 。 如 果 取 出 这 个 序列 的 最 后 4 个 字 节 : 43 ob 20 00， 并 且 按 照相 反 的 顺序 写 出 ， 我 
们 得 到 00 20 ob 43。 去 掉 开 头 的 0， 得 到 值 0x200b43， 这 就 是 右边 的 数值 。 当 阅读 像 此 
类 小 端 法 机 器 生成 的 机 器 级 程序 表示 时 ， 经 常会 将 字 节 按照 相反 的 顺序 显示 。 书 写字 节 序 
列 的 自然 方式 是 最 低位 字 节 在 左边 ， 而 最 高 位 字 节 在 右边 ， 这 正好 和 通常 书写 数字 时 最 高 
有 效 位 在 左边 ， 最 低 有 效 位 在 右边 的 方式 相反 。 

字 节 顺序 变 得 重要 的 第 三 种 情况 是 当 编 写 规 避 正 常 的 类 型 系统 的 程序 时 。 在 C 语言 
中 ， 可 以 通过 使 用 强制 类 型 转换 (cast) 或 联合 (union) 来 允许 以 一 种 数据 类 型 引用 一 个 对 
象 ， 而 这 种 数据 类 型 与 创建 这 个 对 象 时 定义 的 数据 类 型 不 同 。 大 多 数 应 用 编程 都 强烈 不 推 
荐 这 种 编码 技巧 ， 但 是 它们 对 系统 级 编程 来 说 是 非常 有 用 ， 甚 至 是 必需 的 。 

图 2-4 展示 了 一 段 C 代码 ， 它 使 用 强制 类 型 转换 来 访问 和 打印 不 同 程序 对 象 的 字 节 表 
示 。 我 们 用 typedef 将 数据 类 型 pyte pointer 定义 为 一 个 指向 类 型 为 “unsigned 
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char” 的 对 象 的 指针 。 这 样 一 个 字 节 指 针 引 用 一 个 字 节 序列 ， 其 中 每 个 字 节 都 被 认为 是 一 
个 非 负 整数 。 第 一 个 例 程 show_bytes 的 输入 是 一 个 字 节 序列 的 地 址 ， 它 用 一 个 字 节 指针 
以 及 一 个 字 节 数 来 指示 。 该 字 节 数 指定 为 数据 类 型 size +， 表示 数据 结构 大 小 的 首选 数 
据 类 型 。show_bytes 打印 出 每 个 以 十 六 进 制 表示 的 字 节 。C 格式 化 指令 “s#.2x” 表 明 整 
数 必须 用 至 少 两 个 数字 的 十 六 进 制 格式 输出 。 





#include <stdio.h> 


typedef unsigned char *byte_pointer; 


1 
2 
3 
4 , 
5 void show_bytes (byte_pointer start, size_t len) { 
6 size t 1 

学 for (i = 0; i < len; i++) 

8 Printt(™ %.2x", start[i]); 

9 printf("\n"); 


i 二 





12 void show_int(int x) { 


13 show_bytes((byte_pointer) &x, sizeof(int)); 

14  】 

15 

16 void show_float(float x) { 

17 show_bytes((byte_pointer) &x, sizeof (float)); 
i 才 

19 

20 void show_pointer(void *x) { 

21 show_bytes((byte_pointer) &x, sizeof (void *)); 
22 3 








图 2-4 打印 程序 对 象 的 字 节 表示 。 这 段 代 码 使 用 强制 类 型 转换 来 规避 类 型 系统 。 
很 容易 定义 针对 其 他 数据 类 型 的 类 似 函 数 


过 程 show_int、show float 和 show_pointer 展示 了 如 何 使 用 程序 show_bytes 来 
分 别 输出 类 型 为 int、float 和 void * 的 C 程序 对 象 的 字 节 表 示 。 可 以 观察 到 它们 仅仅 
传递 给 show_bytes 一 个 指向 它们 参数 x 的 指针 gx， 且 这 个 指针 被 强制 类 型 转换 为 “un - 
signed char * ”这 种 强制 类 型 转换 告诉 编译 器 ， 程 序 应 该 把 这 个 指针 看 成 指向 一 个 字 
节 序列 ， 而 不 是 指向 一 个 原始 数据 类 型 的 对 象 。 然 后 ， 这 个 指针 会 被 看 成 是 对 象 使 用 的 最 
低 字 节 地 址 。 

这 些 过 程 使 用 C 语言 的 运算 符 sizeof 来 确定 对 象 使 用 的 字 节 数 。 一 般 来 说 ， 表 达 式 
sizeof(T) 返 回 存储 一 个 类 型 为 工 的 对 象 所 需要 的 字 节 数 。 使 用 sizeof 而 不 是 一 个 固定 
的 值 ， 是 向 编写 在 不 同 机 器 类 型 上 可 移植 的 代码 迈进 了 一 步 。 

在 几 种 不 同 的 机 器 上 运行 如 图 2-5 所 示 的 代码 ， 得 到 如 图 2-6 所 示 的 结果 。 我 们 使 用 
了 以 下 几 种 机 器 : 

Linux 32: 运行 Linux 的 Intel IA32 处 理 器 。 

Windows: 运行 Windows 的 Intel IA32 处 理 器 。 

Sun: 运行 Solaris 的 Sun Microsystems SPARC 处 理 器 。( 这 些 机 器 现在 由 Oracle 生产 。) 

Linux 64: 运行 Linux 的 Intel x86-64 处 理 器 。 
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一 codedatasjomw-byteyc 
void test_show_bytes (int val) { 


1 

2 int ival = val; 

3 float fval = (float) ival; 
4 int *pval = &ival; 

5 show_int (ival); 

6 show_float (fval); 

7 show_pointer(pval); 

8 


一 一 code/data/show-bytes.c 
图 2-5 字 节 表示 的 示例 。 这 段 代 码 打印 示例 数据 对 象 的 字 节 表 示 


字 节 (十 六 进 制 ) 
Linux 32 39 30 00 00 
Windows 39 30 00 00 
00 00 30 39 
39.30.00 00 


Linux 32 12 345.0 00 e4 40 46 


Windows 12 345.0 00 e4 40 46 
12 345.0 46 40 e4 00 
12 345.0 00 e4 40 46 


Linux 32 8 二 9 £ BE 
Windows pb4Gc 22 00 
Sun ef ff fa 0c 
Linux 64 baile5ff ff 7£0000 


图 2-6 不 同 数据 值 的 字 节 表示 。 除 了 字 节 顺序 以 外 ，int 和 float 的 结果 是 一 样 的 。 指 针 值 与 机 器 相关 


参数 12 345 的 十 六 进 制 表示 为 0x00003039。 对 于 int 类 型 的 数据 ， 除 了 字 节 顺序 以 
外 ， 我 们 在 所 有 机 器 上 都 得 到 相同 的 结果 。 特 别 地 ， 我 们 可 以 看 到 在 Linux 32、Windows 
和 Linux 64 上 ， 最 低 有 效 字 节 值 0x39 最 先 输出 ， 这 说 明 它 们 是 小 端 法 机 器 ; 而 在 Sun 上 
最 后 输出 ， 这 说 明 Sun 是 大 端 法 机 器 。 同 样 地 ，float 数据 的 字 节 ， 除 了 字 节 顺序 以 外 ， 
也 都 是 相同 的 。 另 一 方面 ， 指 针 值 却 是 完全 不 同 的 。 不 同 的 机 器 /操作 系统 配置 使 用 不 同 
的 存储 分 配 规则 。 一 个 值得 注意 的 特性 是 Linux 32、Windows 和 Sun 的 机 器 使 用 4 字 节 
地 址 ， 而 Linux 64 使 用 8 字 节 地 址 。 





时 = 兹 E35 省 使 用 typedef 来 命名 数据 类 型 

C 语言 中 的 typedef 声明 提供 了 一 种 给 数据 类 型 命名 的 方式 。 这 能 够 极 大 地 改善 代 
码 的 可 读 性 ， 因 为 深度 谋 套 的 类 型 声明 很 难 读 懂 。 

typedef 的 语法 与 声明 变量 的 语法 十 分 相像 ， 除 了 它 使 用 的 是 类 型 名 ， 而 不 是 变量 
名 。 因 此 ， 图 2-4 中 byte pointer 的 声明 和 将 一 个 变量 声明 为 类 型 “unsigned char 
* ”有 相同 的 形式 。 

例如 ， 声 明 : 

typedef int *int_pointer; 

int_pointer ip; 

将 类 型 “int _ pointer” 定 义 为 一 个 指向 int 的 指针 ， 并 且 声 明了 一 个 这 种 类 型 的 
变量 ijp。 我 们 还 可 以 将 这 个 变量 直接 声明 为 : 


int *ip; 








EEDEE 使 用 printf 格式 化 输出 

printf 函数 (还 有 它 的 同类 fprintf 和 sprintf) 提 供 了 一 种 打印 信息 的 方式 ， 这 
种 方式 对 格式 化 细节 有 相当 大 的 控制 能 力 。 第 一 个 参数 是 格式 串 (format string)， 而 其 
余 的 参数 都 是 要 打印 的 值 。 在 格式 串 里 ， 每 个 以 “入 开始 的 字符 序列 都 表示 如 何 格式 
化 下 一 个 参数 。 典 型 的 示例 包括 :“%d” 是 输出 一 个 十 进 制 整数 ， “$f” 是 输出 一 个 浮 点 
数 ， 而 “gc” 是 输出 一 个 字符 ， 其 编码 由 参数 给 出 。 

指定 确定 大 小 数据 类 型 的 格式 ， 如 int32 t， 要 更 复杂 一 些 ， 相 关内 容 参 见 2. 2.3 
节 的 旁 注 。 


可 以 观察 到 ， 尽 管 浮 点 型 和 整 型 数据 都 是 对 数值 12 345 编码 ， 但 是 它们 有 截然 不 同 的 
字 节 模式 : 整 型 为 0x00003039， 而 浮 点 数 为 0x4640E400。 一 般 而 言 ， 这 两 种 格式 使 用 不 
同 的 编码 方法 。 如 果 我 们 将 这 些 十 六 进 制 模式 扩展 为 二 进 制 形 式 ， 并 且 适 当地 将 它们 移 
位 ， 就 会 发 现 一 个 有 13 个 相 匹配 的 位 的 序列 ， 用 一 串 星 号 标识 出 来 : 
0 0 0 0 3 0 3 9 
00000000000000000011000000111001 
冰 炒 冰冰 冰冰 冰冰 冰冰 冰冰 冰 


4 6 4 0 E 4 0 0 
01000110010000001110010000000000 


这 并 不 是 巧合 。 当 我 们 研究 浮 点 数 格式 时 ， 还 将 再 回 到 这 个 例子 。 


在 函数 ee 2-4) 中， 我 们 看 到 指针 和 数组 之 间 紧 密 的 联系 ， 这 将 在 3.8 节 
中 详细 描述 。 这 个 函数 有 一 个 类 型 为 byte pointer( 被 定义 为 一 个 指向 unsigned char 的 
指针 ) 的 参数 start， 但 是 我 们 在 第 8 行 上 看 到 数组 引用 start [i]。 在 Ci 语言 中 ， 我 们 能 
够 用 数组 表示 法 来 引用 指针 ， 同 时 我 们 也 能 用 指针 表示 法 来 引用 数组 元 素 。 在 这 个 例子 
中 ， 引 用 start [i] 表 示 我 们 想 要 读 取 以 start 指向 的 位 置 为 起 始 的 第 i 个 位 置 处 的 字 节 。 


给 C 语言 初学 者 





在 图 2-4 的 第 13、17 和 21 行 ， 我 们 看 到 对 C 和 C++ 中 两 种 独 有 操作 的 使 用 。C 的 
“ 取 地 址 ”运算 符 & 创建 一 个 指针 。 在 这 三 行 中 ， 表 达 式 &xX 创 建 了 一 个 指向 保存 变量 x 的 
位 置 的 指针 。 这 个 指针 的 类 型 取决 于 x 的 类 型 ， 因此 这 三 个 指针 的 类 型 分 别 为 int*、 
float* 和 void **。( 数 据 类 型 void * 是 一 种 特殊 类 型 的 指针 ， 没 有 相关 联 的 类 型 信息 。) 

强制 类 型 转换 运算 符 可 以 将 一 种 数据 类 型 转换 为 另 一 种 。 因 此 ， 强 制 类 型 转换 
(byte pointer)&x 表 明 无 论 指 针 &x 以 前 是 什么 类 型 ， 它 现在 就 是 一 个 指向 数据 类 型 
为 unsigned char 的 指针 。 这 里 给 出 的 这 些 强 制 类 型 转换 不 会 改变 真实 的 指针 ， 它 们 
只 是 告诉 编译 器 以 新 的 数据 类 型 来 看 待 被 指向 的 数据 。 


蕊 要 生成 一 张 ASCII 表 


可 以 通过 执行 命令 man ascii 来 得 到 一 张 ASCII 字符 码 的 表 。 


廊 红 练习 题 2.5 思考 下 面 对 show_bytes 的 三 次 调用 : 
int val = Ox87654321; 
byte_pointer valp = (byte_pointer) &val; 
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show_bytes(valp, 1); /* A. */ 
show_bytes(valp, 2); /* B. */ 
show_bytes(valp, 3); /* C. */ 


指出 在 小 端 法 机 器 和 大 端 法 机 器 上 ， 每 次 调用 的 输出 值 。 


A. 小 端 法 : 大 端 法 : 
B. 小 端 法 : 大 端 法 : 
C. 小 端 法 : 大 端 法 : 





世人 练习 题 2.6 使 用 show int 和 show float， 我 们 确定 整数 3510593 的 十 六 进 制 表示 
为 0x00359141， 而 浮 点 数 3510593.0 的 十 六 进 制 表示 为 0x4A564504。 
A. 写 出 这 两 个 十 六 进 制 值 的 二 进 制 表示 。 
B. 移动 这 两 个 二 进 制 串 的 相对 位 置 ， 使 得 它们 相 匹 配 的 位 数 最 多 。 有 多 少 位 相 匹 配 呢 ? 
C. 串 中 的 什么 部 分 不 相 匹配 ? 


2. 1.4 表示 字符 串 


C 语言 中 字符 串 被 编码 为 一 个 以 null( 其 值 为 0) 字符 结尾 的 字符 数组 。 每 个 字符 都 由 
某 个 标准 编码 来 表示 ， 最 常见 的 是 ASCII 字符 码 。 因 此 ， 如 果 我 们 以 参数 “12345” 和 6 
(包括 终止 符 ) 来 运行 例 程 show_bytes， 我 们 得 到 结果 31 32 33 34 35 00。 请 注意 ， 十 进 
制 数字 x 的 ASCII 码 正好 是 0x3x， 而 终止 字 节 的 十 六 进 制 表 示 为 0x00。 在 使 用 ASCII 码 
作为 字符 码 的 任何 系统 上 都 将 得 到 相同 的 结果 ， 与 字 节 顺序 和 字 大 小 规则 无 关 。 因 而 ， 文 
本 数据 比 二 进 制 数 据 具 有 更 强 的 平台 独立 性 。 
FS 练习 题 2.7 下 面 对 show bytes 的 调用 将 输出 什么 结果 ? 

const char *s = "abcdef"; 
， Show_bytes((byte_pointer) s, strlen(s)); 


注意 字母 “a”~“z” 的 ASCII 码 为 0x61~0x7A。 


ASCII 字符 集 适 合 于 编码 英语 文档 ， 但 是 在 表达 一 些 特 殊 字 符 方面 并 没有 太 多 办 法 ， 
例如 法 语 的 “CQC”。 它 完全 不 适合 编码 希腊 语 、 俄 语 和 中 文 等 语言 的 文档 。 这 些 年 ， 提出 了 
很 多 方法 米 对 不 同 语言 的 文字 进行 编码 。Unicode 联合 会 (Unicode Consortium) 修 订 了 最 全 
面 且 广泛 接受 的 文字 编码 标准 。 当 前 的 Unicode 标准 (7. 0 版) 的 字库 包括 将 近 100 000 个 字 
符 ， 支 持 广泛 的 语言 种 类 ， 包 括 古 埃及 和 巴比伦 的 语言 。 为 了 保持 信用 ，Unicode 技术 委 
员 会 否决 了 为 Klingon( 即 电视 连续 剧 《 星 际 迷 航 》 中 的 虚构 文明 ) 编 写 语言 标准 的 提议 。 

基本 编码 ， 称 为 Unicode 的 “统一 字符 集 ”， 使 用 32 位 来 表示 字符 。 这 好 像 要 求 文 
本 串 中 每 个 字符 要 占用 4 个 字 节 。 不 过 ， 可 以 有 一 些 替 代 编 码 ， 常 见 的 字符 只 需要 1 个 
或 2 个 字 节 ， 而 不 太 常用 的 字符 需要 多 一 些 的 字 节 数 。 特 别 地 ，UTF-8 表示 将 每 个 字符 
编码 为 一 个 字 节 序列 ， 这 样 标准 ASCII 字符 还 是 使 用 和 它们 在 ASCII 中 一 样 的 单字 节 
编码 ， 这 也 就 意味 着 所 有 的 ASCII 字 节 序列 用 ASCII 码 表 示 和 用 UTF-8 表示 是 一 样 的 。 

Java 编程 语言 使 用 Unicode 来 表示 字符 串 。 对 于 C 语言 也 有 支持 Unicode 的 程序 库 。 





2.1.5 表示 代码 
考虑 下 面 的 C 函数 : 
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1 int sum(int x, int y) { 
2 returm w+ y} 


3 了 


当 我 们 在 示例 机 器 上 编译 时 ， 生 成 如 下 字 节 表示 的 机 器 代码 : 

Linux32 55 89 e5 8b 45 0c 03 45 08 c9 c3 

Windows 55 89 e5 8b 45 0c 03 45 08 5d c3 

Sun 81 c3 e0 08 90 02 00 09 

Linux 64 5548 89 e5 89 7d fc 89 75 f8 03 45 fc c9 c3 

我 们 发 现 指令 编码 是 不 同 的。 不 同 的 机 器 类 型 使 用 不 同 的 且 不 兼容 的 指令 和 编码 方 
式 。 即 使 是 完全 一 样 的 进程 ， 运 行 在 不 同 的 操作 系统 上 也 会 有 不 同 的 编码 规则 ， 因 此 二 进 
制 代码 是 不 兼容 的 。 二 进 制 代码 很 少 能 在 不 同 机 器 和 操作 系统 组 合 之 间 移 植 。 

计算 机 系统 的 一 个 基本 概念 就 是 ， 从 机 器 的 角度 来 看 ， 程 序 仅仅 只 是 字 节 序列 。 机 器 
没有 关于 原始 源 程 序 的 任何 信息 ， 除 了 可 能 有 些 用 来 帮助 调试 的 辅助 表 以 外 。 在 第 3 章 学 
习 机 器 级 编程 时 ， 我 们 将 更 清楚 地 看 到 这 一 点 。 


2.1.6 布尔 代数 简介 


二 进 制 值 是 计算 机 编码 、 存 储 和 操作 信息 的 核心 ， 所 以 围绕 数值 0 和 1 的 研究 已 经 演化 
出 了 丰富 的 数学 知识 体系 。 这 起 源 于 1850 年 前 后 乔治 .布尔 (George Boole，1815 一 1864) 的 
工作 ， 因 此 也 称 为 布尔 代数 (Boolean algebra)。 布 尔 注 意 到 通过 将 逻辑 值 TRUE( 真 ) 和 
FALSE( 假 ) 编 码 为 二 进 制 值 1 和 0， 能 够 设计 出 一 种 代数 ， 以 研究 逻辑 推理 的 基本 原则 。 

最 简单 的 布尔 代数 是 在 二 元 集合 {0, 1} [一 Re i 本 
基础 上 的 定义 。 图 2-7 定义 了 这 种 布尔 代数 | 0 oe olo 1 0 
中 的 几 种 运算 。 我 们 用 来 表示 这 些 运算 的 符 上 1 
C 语 言 位 级 运算 使 用 的 符号 是 相 匹配 图 27 布尔 代数 的 运算 。 二 进 制 值 1 和 0 表示 

， 这 些 将 在 后 面 讨论 到 。 布 尔 运算 ~ 对 应 逻辑 值 TRUE 或 者 FALSE， 而 运算 符 
Eee NOT， 在 命题 逻辑 中 用 符号 一 ~、&、| 和 ^ 分 别 表示 逻辑 运算 NOT、 
表示 。 也 就 是 说 ， 当 Pp 不 是 真 的 时 候 ， 我 AND、OR 和 EXCLUSIVE-OR 
们 就 说 - 是 真 的 ， 反 之 亦 然 。 相 应 地 ， 当 书 等 于 0 时 ，~ 忆 等 于 1， 反 之 亦 然 。 布 尔 运 算 
& 对 应 于 逻辑 运算 AND， 在 命题 逻辑 中 用 符号 人 表示 。 当 了 和 Q 都 为 真 时 ， 我 们 说 PA 
Q 为 真 。 相 应 地 ， 只 有 当 p= 二 1 且 gq 二 1 时 ，p&g 才 等 于 1。 布 尔 运算 | 对 应 于 逻辑 运算 
OR， 在 命题 逻辑 中 用 符号 V 表示 。 当 卫 或 者 Q 为 真 时 ， 我们 说 PVQ 成 立 。 相 应 地 ， 当 
p= 二 1 或 者 gq 二 1 时 ，plg 等 于 1。 布尔 运算 对 应 于 逻辑 运算 异 或 ， 在 命题 逻辑 中 用 符号 阳 
表示 。 当 了 或 者 Q 为 真 但 不 同时 为 真 时 ， 我们 说 P 弗 Q 成 立 。 相 应 地 ， 当 p= 二 1 且 gq=0， 
或 者 p= 二 0 且 gq 二 1 时 ，p “9g 等 于 1。 

后 来 创立 信息 论 领 域 的 Claude Shannon(1916 一 2001) 首 先 建立 了 布尔 代数 和 数字 逻辑 
之 间 的 联系 。 他 在 1937 年 的 硕士 论文 中 表明 了 布尔 代数 可 以 用 来 设计 和 分 析 机 电 继电器 
网 络 。 尽 管 那 时 计算 机 技术 已 经 取得 了 相当 的 发 展 ， 但 是 布尔 代数 仍然 在 数字 系统 的 设计 
和 分 析 中 扮演 着 重要 的 角色 。 

我 们 可 以 将 上 述 4 个 布尔 运算 扩展 到 位 向 量 的 运算 ,位 向 量 就 是 固定 长 度 为 w、 由 0 
和 1 组 成 的 串 。 位 向 量 的 运算 可 以 定义 成 参数 的 每 个 对 应 元 素 之 间 的 运算 。 假 设 a 和 2 分 
别 表示 位 向 量 La,,_1， Qu 一 2，“”””， ao ] 和 [6 19 a= 1 bo ls 我 们 将 a&b 也 定义 为 一 一 个 
长 度 为 w 的 位 向 量 ， 其 中 第 i 个 元 素 等 于 a;&b;，0 声 i 二 w。 可 以 用 类 似 的 方式 将 运算 | 、 


1 
1 
0 
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和 ~ 扩展 到 位 向 量 上 。 


举 个 例子 ,假设 w= 一 4， 参数 a 二 [0110]，6b 一 [1100]。 那 么 4 种 运算 a&b、alb、a“b 
和 ~ 如 分别 得 到 以 下 结果 : ， 


0110 0110 0110 
& 1100 | 1100 ~ 1100 ~ 1100 
0100 1110 1010 0011 
对 练习 题 2.8 填写 下 表 ， 给 出 位 向 量 的 布尔 运算 的 求 值 结果 。 








结果 
[01101001] 
[01010101] 





EE- 才 JY:lele| 靖 关于 布尔 代数 和 布尔 环 的 更 多 内 容 

对 于 任意 整数 包 盖 0， 长 度 为 也 的 位 向 量 上 的 布尔 运算 |、 全 和 ~ 形成 了 一 个 布尔 
代数 。 最 简单 的 情况 是 ww 二 1 时， 只 有 2 个 元 素 ; 但 是 对 于 更 普遍 的 情况 ， 有 2” 个 长 度 
为 包 的 位 向 量 。 布 尔 代 数 和 整数 算术 运算 有 很 多 相似 之 处 。 例 如 ， 乘 法 对 加 法 的 分 配 
律 ， 写 为 a*。 (6b 十 c) 二 (a*0b) 十 (a，c)， 而 布尔 运算 & 对 | 的 分 配 律 ， 写 为 a&(b|c)== 
(a&b)|(a&c)。 此 外 ， 布尔 运算 | 对 & 也 有 分 配 律 ， 写 为 a| (b&c)= 二 (a1b)&(alc)， 
但 是 对 于 整数 我 们 不 能 说 a 十 (b。c)= 二 (a 十 6)。(a 十 c)。 

当 考 虑 长 度 为 员 的 位 向 量 上 的 *、& 和 ~ 运算 时 ， 会 得 到 一 种 不 同 的 数学 形式 ， 我 
们 称 为 布尔 环 (Boolean ring)。 布 尔 环 与 整数 运算 有 很 多 相同 的 属性 。 例 如 ， 整 数 运 算 
的 一 个 属性 是 每 个 值 x 都 有 一 个 加 法 逆 元 (additive inverse) 一 x， 使 得 x 十 (一 xX) 二 0。 布 
尔 环 也 有 类 似 的 属性 ， 这 里 的 “加 法 ”运算 是 ~， 不 过 这 时 每 个 元 素 的 加 法 逆 元 是 它 自 
己 本 身 。 也 就 是 说 ， 对 于 任何 值 a 来 说 ，a “a 二 0， 这 里 我 们 用 0 来 表示 全 0 的 位 向 量 。 
可 以 看 到 对 单个 位 来 说 这 是 成 立 的 ， 即 0~0 二 1^1 二 0， 将 这 个 扩展 到 位 向 量 也 是 成 立 
的 。 当 我 们 重新 排列 组 合 顺序 ， 这 个 属性 也 仍然 成 立 ， 因 此 有 (a“b)~a 二 5b。 这 个 属性 会 
引起 一 些 很 有 趣 的 结果 和 聪明 的 技巧 ， 在 练习 题 2. 10 中 我 们 会 有 所 探讨 。 


位 向 量 一 个 很 有 用 的 应 用 就 是 表示 有 限 集合 。 我 们 可 以 用 位 向 量 [Las-1，…，al，aoj] 
编码 任何 子 集 AC{0，1，…，w 一 1}， 其 中 a; 二 1 当 且 仪 当 i€ A。 例如 ( 记 住 我 们 是 把 
aw-1 写 在 左边 ， 而 将 ao。 写 在 右边 )， 位 向 量 a 二 [L01101001j] 表 示 和 集合 A 二 10，3，5，6)， 
而 0 二 [01010101] 表 示 集 合 B 二 {0，2，4，6}。 使 用 这 种 编码 集合 的 方法 ,布尔 运算 | 和 
& 分 别 对 应 于 集合 的 并 和 交 ， 而 ~ 对 应 于 于 集合 的 补 。 还 是 用 前 面 那 个 例子 ， 运算 a&。 
得 到 位 向 量 L01000001], 而 ANB={0，6}。 

在 大 量 实际 应 用 中 ， 我 们 都 能 看 到 用 位 向 量 来 对 集合 编码 。 例 如 ， 在 第 8 章 ， 我 们 会 
看 到 有 很 多 不 同 的 信号 会 中 断 程 序 执 行 。 我 们 能 够 通过 指定 一 个 位 向 量 掩 码 ， 有 选择 地 使 
能 或 是 屏蔽 一 些 信和 号， 其 中 某 一 位 位 置 上 为 1 时 ， 表 明 信 和 号 i 是 有 效 的 (使 能 )， 而 0 表明 
该 信号 是 被 屏蔽 的 。 因 而 ， 这 个 掩 码 表示 的 就 是 设置 为 有 效 信号 的 集合 。 
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记 练习 题 2.9 通过 混合 三 种 不 同 颜色 的 光 ( 红 色 、 绿 色 和 蓝 色 )， 计 算 机 可 以 在 视频 愤 
幕 或 者 液晶 显示 器 上 产生 彩色 的 画面 。 设 想 一 种 简单 的 方法 ,使 用 三 种 不 同 颜色 的 
光 ， 每 种 光 都 能 打开 或 关闭 ， 投 射 到 玻璃 屏幕 上 ， 如 图 所 示 : 

光源 玻璃 屏幕 








那么 基于 光源 R( 红 )、G( 绿 )、B( 蓝 ) 的 关闭 (0) 或 打开 (1)， 我 们 就 能 够 创建 8 
种 不 同 的 颜色 : 





这 些 颜色 中 的 每 一 种 都 能 用 一 个 长 度 为 3 的 位 向 量 来 表示 ， 我 们 可 以 对 它们 进行 布尔 运算 。 
A. 一 种 颜色 的 补 是 通过 关 掉 打开 的 光源 ， 且 打开 关闭 的 光源 而 形成 的 。 那 么 上 面 列 
出 的 8 种 颜色 每 一 种 的 补 是 什么 ? 
B. 描述 下 列 颜 色 应 用 布尔 运算 的 结果 : 
蓝 色 | 绿色 = 
黄色 &. 蓝 绿色 二 
红色 ^ 红 紫 色 = 


2.1.7 C 语 言 中 的 位 级 运算 

C 语言 的 一 个 很 有 用 的 特性 就 是 它 支持 按 位 布尔 运算 。 事 实 上 ， 我 们 在 布尔 运算 中 使 
用 的 那些 符号 就 是 C 语言 所 使 用 的 ;| 就 是 OR( 或 )，& 就 是 AND( 与 )，~ 就 是 NOT( 取 
反 )， 而 -就 是 EXCLUSIVE-OR( 异 或 ) 。 这 些 运算 能 运用 到 任何 “ 整 型 ”的 数据 类 型 上 ， 
包括 图 2-3 所 示 内 容 。 以 下 是 一 些 对 char 数据 类 型 表达 式 求 值 的 例子 : 


正如 示例 说 明 的 那样 ， 确 定 一 个 位 级 表达 式 的 结果 最 好 的 方法 ， 就 是 将 十 六 进 制 的 参 
数 扩展 成 二 进 制 表示 并 执行 二 进 制 运 算 ， 然 后 再 转换 回 十 六 进 制 。 
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练习 题 2. 10 ”对 于 任 一 位 向 量 a， 有 a^“a 二 0。 应 用 这 一 属性 ， 考 虑 下 面 的 程序 : 
1 void inplace_swap(int *x, int *y) { 

2 *y = *x ~ *y; /* Step 1 */ 

3 *X = *x ~ *y; /* Step 2 */ 

4 *y = *x ~ *y; /* Step 3 */ 

5 





正如 程序 名 字 所 暗示 的 那样 ， 我 们 认为 这 个 过 程 的 效果 是 交换 指针 变量 x 和 y 所 指向 
的 存储 位 置 处 存放 的 值 。 注 意 ， 与 通常 的 交换 两 个 数值 的 技术 不 一 样 ， 当 移动 一 个 值 
时 ， 我 们 不 需要 第 三 个 位 置 来 临时 存储 另 一 个 值 。 这 种 交换 方式 并 没有 性 能 上 的 优 
势 ， 它 仅仅 是 一 个 智力 游戏 。 

以 指针 x 和 y 指 向 的 位 置 存储 的 值 分 别 是 a 和 8 作为 开始 ， 填 写 下 表 ， 给 出 在 程序 的 
每 一 步 之 后 ， 存 储 在 这 两 个 位 置 中 的 值 。 利 用 ^ 的 属性 证 明达 到 了 所 希望 的 效果 。 回 
想 一 下 ， 每 个 元 素 就 是 它 自身 的 加 法 逆 元 (a*a 王 0)。 





练习 题 2. 11 在 练习 题 2. 10 中 的 inplace swap 函数 的 基础 上 ， 你 决定 写 一 段 代码 ， 


实现 将 一 个 数组 中 的 元 素 头 尾 两 端 依次 对 调 。 你 写 出 下 面 这 个 函数 : 

1 void reverse_array(int a[], int cnt) { 

2 int first, last; 

3 for (first = 0, last = cnt-1; 

4 first <= last; 

5 first++,1last--) 

6 inplace_swap(&a[first], &a[last]); 

~、 

当 你 对 一 个 包含 元 素 1、2、3 和 4 的 数组 使 用 这 个 函数 时 ， 正 如 预期 的 那样 ， 现 在 数 

组 的 元 素 变 成 了 4、3、2 和 1。 不 过 ， 当 你 对 一 个 包含 元 素 1、2、3、4 和 5 的 数组 使 

用 这 个 函数 时 ， 你 会 很 惊奇 地 看 到 得 到 数字 的 元 素 为 5、4、0、2 和 1。 实 际 上 ， 你 会 

发 现 这 段 代 码 对 所 有 偶数 长 度 的 数组 都 能 正确 地 工作 ， 但 是 当 数 组 的 长 度 为 奇数 时 ， 

它 就 会 把 中 间 的 元 素 设置 成 0。 

A. 对 于 一 个 长 度 为 奇数 的 数组 ， 长 度 cnt 二 2k 十 1， 函 数 reverse _ array 最 后 一 次 
循环 中 ， 变 量 first 和 last 的 值 分 别 是 什么 ? 

B. 为 什么 这 时 调用 函数 inplace _swap 会 将 数组 元 素 设置 为 0? 

C. 对 reverse array 的 代码 做 哪些 简单 改动 就 能 消除 这 个 问题 ? 

位 级 运算 的 一 个 常见 用 法 就 是 实现 掩 码 运 算 ， 这 里 掩 码 是 一 个 位 模式 ， 表 示 从 一 个 字 

出 的 位 的 集合 。 让 我 们 来 看 一 个 例子 ， 掩 码 0xFF( 最 低 的 8 位 为 1) 表 示 一 个 字 的 低位 

。 位 级 运算 x&0xFF 生成 一 个 由 x 的 最 低 有 效 字 节 组 成 的 值 ， 而 其 他 的 字 节 就 被 置 为 


0。 比 如 ， 对 于 x= 0x89ABCDEF， 其 表达 式 将 得 到 0x000000EF。 表 达 式 ~0 将 生成 一 个 全 
1 的 掩 码 ， 不 管 机 器 的 字 大 小 是 多 少 。 尽 管 对 于 一 个 32 位 机 器 来 说 ， 同 样 的 掩 码 可 以 写成 
0xFFFFFFFF， 但 是 这 样 的 代码 不 是 可 移植 的 。 
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记 练习 题 2. 12 ”对 于 下 面 的 值 ， 写 出 变量 x 的 C 语言 表达 式 。 你 的 代码 应 该 对 任何 字 
长 w 宇 8 都 能 工作 。 我 们 给 出 了 当 x=0x87654321 以 及 w= 二 32 时 表达 式 求 值 的 结果 ， 
仅 供 参考 。 
A. x 的 最 低 有 效 字 节 ， 其 他 位 均 置 为 0。[0x00000021]。 
B. 除了 x 的 最 低 有 效 字 节 外 ， 其 他 的 位 都 取 补 ， 最 低 有 效 字 节 保持 不 变 。 [0x789ABC21]。 
C. x 的 最 低 有 效 字 节 设置 成 全 1， 其 他 字 节 都 保持 不 变 。[0x876543FF]。 

练习 题 2. 13 从 20 世纪 70 年 代 末 到 80 年 代 末 ，Digital Equipment 的 VAX 计算 机 
是 一 种 非常 流行 的 机 型 。 它 没有 布尔 运算 AND 和 OR 指令 ， 只 有 bis( 位 设置 ) 和 
bic( 位 清除 ) 这 两 种 指令 。 两 种 指令 的 输入 都 是 一 个 数据 字 x 和 一 个 掩 码 字 m。 它 们 
生成 一 个 结果 z，z 是 由 根据 掩 码 m 的 位 来 修改 x 的 位 得 到 的 。 使 用 bis 指令 ， 这 种 
修改 就 是 在 m 为 1 的 每 个 位 置 上 ,将 z 对 应 的 位 设置 为 1。 使 用 bic 指令 ， 这 种 修改 
就 是 在 m 为 1 的 每 个 位 置 ， 将 z 对 应 的 位 设置 为 0。 

为 了 看 清楚 这 些 运 算 与 C 语 言 位 级 运算 的 关系 ,假设 我 们 有 两 个 函数 bis 和 bic 来 实 

现 位 设置 和 位 清除 操作 。 只 想 用 这 两 个 函数 ， 而 不 使 用 任何 其 他 C 语言 运算 ， 来 实现 按 
位 | 和 ^ 运 算 。 填 写 下 列 代码 中 缺失 的 代码 。 提 示 : 写 出 bis 和 bic 运算 的 C 语 言 表达 式 。 
/* Declarations of functions implementing operations bis and bic */ 


int bis(int x, int m); 
int bic(int x, int m); 


/* Compute x|y using only calls to functions bis and bic */ 
int bool_or(int x, int y) +{ 

int result = ; 

return result,; 


} 


. /* Compute X"y using only calls to functions bis and bic */ 
int bool_xor(int x, int y) { 
inb result =  — 3 
return result; 


} 


2.1.8 C 语 言 中 的 逻辑 运算 

C 语言 还 提供 了 一 组 逻辑 运算 符 上、&& 和 !， 分 别 对 应 于 命题 逻辑 中 的 OR、AND 
和 NOT 运算 。 逻 辑 运算 很 容易 和 位 级 运算 相 混 淆 ， 但 是 它们 的 功能 是 完全 不 同 的 。 逻 辑 
运算 认为 所 有 非 零 的 参数 都 表示 TRUE， 而 参数 0 表示 FALSE。 它 们 返回 1 或 者 0， 分 别 
表示 结果 为 TRUE 或 者 为 FALSE。 以 下 是 一 些 表 达 式 求 值 的 示例 。 














Ox01 


Ox69&&0x55 0x01 
0x69110x55 Ox01 


可 以 观察 到 ， 按 位 运算 只 有 在 特殊 情况 下 ， 也 就 是 参数 被 限制 为 0 或 者 1 时 ， 才 和 与 














其 对 应 的 逻辑 运算 有 相同 的 行为 。 

逻辑 运算 符 &&& 和 | 与 它们 对 应 的 位 级 运算 & 和 | 之 间 第 二 个 重要 的 区 别 是 ， 如 果 对 
第 一 个 参数 求 值 就 能 确定 表达 式 的 结果 ， 那 么 逻辑 运算 符 就 不 会 对 第 二 个 参数 求 值 。 因 此 ， 
例如 ， 表 达 式 agg5/a 将 不 会 造成 被 零 除 ， 而 表达 式 pg&*p++ 也 不 会 导致 间接 引用 空 指 针 。 
BS 练习 题 2. 14 假设 x 和 y 的 字 节 值 分 别 为 0x66 和 0x39。 填 写 下 表 ， 指 明 各 个 C 表达 





式 的 字 节 值 。 























巧 SN 练习 题 2. 15 只 使 用 位 级 和 逮 辑 运算 ， 编 写 一 个 C 表达 式 ， 它 等 价 于 x= =y。 换 名 话 
说 ， 当 x 和 y 相等 时 它 将 返回 1， 否 则 就 返回 0。 


2. 1.9 C 语言 中 的 移 位 运算 
C 语言 还 提供 了 一 组 移 位 运算 ， 向 左 或 者 向 右 移动 位 模式 。 对 于 一 个 位 表示 为 [z。 il， 
Zu-z，…，2o] 的 操作 数 zx，C 表达 式 x<<k 会 生成 一 个 值 ， 其 位 表示 为 [xs_s_1，Zzw_4-2，*…， 
ZXxo，0，…，0j]。 也 就 是 说 ，x 向 左 移动 位， 丢弃 最 高 的 上 位 ， 并 在 右 端 补 & 个 0。 移 位 
量 应 该 是 一 个 0 一 芭 一 1 之 间 的 值 。 移 位 运算 是 从 左 至 右 可 结合 的 ， 所 以 x<<j<<k 等 价 于 
(x<<j ) <<k。 
有 一 个 相应 的 右 移 运算 x>>k， 但 是 它 的 行为 有 点 微妙 。 一 般 而 言 ， 机 器 支持 两 种 形 
式 的 右 移 : 还 辑 右 移 和 算术 右 移 。 逻 辑 右 移 在 左 端 补 & 个 0， 得 到 的 结果 是 L0，…，0， 


ZXw-1，Zw-z，*"…，ZX4j]。 算 术 右 移 是 在 左 端 补 & 个 最 高 有 效 位 的 值 ， 得 到 的 结果 是 [xs_1，…， 
ZXw-1，Xw-1，ZXw-2，"…，ZX4]。 这 种 做 法 看 上 去 可 能 有 点 奇特 ,但 是 我 们 会 发 现 它 对 有 符 
号 整数 数据 的 运算 非常 有 用 。 


让 我 们 来 看 一 个 例子 ， 下 面 的 表 给 出 了 对 一 个 8 位 参数 x 的 两 个 不 同 的 值 做 不 同 的 移 
位 操作 得 到 的 结果 : 











[01100011] [10010101] 


[00110000] [01010000] 

















x >> 4 (逻辑 右 移 ) 
x >> 4 (算术 右 移 ) 


斜体 的 数字 表示 的 是 最 右 端 ( 左 移 ) 或 最 左 端 ( 右 移 ) 填 充 的 值 。 可 以 看 到 除了 一 个 条 目 
之 外 ， 其 他 的 都 包含 填充 0。 唯 一 的 例外 是 算术 右 移 L10010101] 的 情况 。 因 为 操作 数 的 最 
高 位 是 1， 填 充 的 值 就 是 1。 

C 语言 标准 并 没有 明确 定义 对 于 有 符号 数 应 该 使 用 哪 种 类 型 的 右 移 一 一 算术 右 移 或 者 逻辑 
右 移 都 可 以 。 不 幸 地 ， 这 就 意味 着 任何 假设 一 种 或 者 另 一 种 右 移 形式 的 代码 都 可 能 会 遇 到 可 移 
植 性 问题 。 然 而 ， 实 际 上 ， 几 乎 所 有 的 编译 器 /机 器 组 合 都 对 有 符号 数 使 用 算术 右 移 ， 且 许多 


[00000110] [00001001] 








[00000110] [7717171001] 
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程序 员 也 都 假设 机 器 会 使 用 这 种 右 移 。 另 一 方面 ， 对 于 无 符号 数 ， 右 移 必须 是 逻辑 的 。 
与 C 相 比 ，Java 对 于 如 何 进行 右 移 有 明确 的 定义 。 表 达 是 x>>k 会 将 x 算术 右 移 k 个 
位 置 ， 而 x>>>k 会 对 x 做 逻辑 右 移 。 


国 了 ] 移动 k 位 , 这 里 k 很 大 
对 于 一 个 由 也 位 组 成 的 数据 类 型 ， 如 果 要 移动 & 之 世 位 会 得 到 什么 结果 呢 ? 例 如 ， 
计算 下 面 的 表达 式 会 得 到 什么 结果 ， 假 设 数 据 类 型 int 为 ww 二 32: 


OxFEDCBA98 << 32; 
OxFEDCBA98 >> 36; 
OxFEDCBA98u >> 40; 


int lval 
int aval 
unsigned uval 


2 


C 语言 标准 很 小 心地 规避 了 说 明 在 这 种 情况 下 该 如 何 做 。 在 许多 机 器 上 ， 当 移动 一 个 
他 位 的 值 时 ， 移 位 指令 只 考虑 位 移 量 的 低 logsw 位 ， 因 此 实际 上 位 移 量 就 是 通过 计算 kk mod 
ww 得 到 的 。 例 如 ， 当 w= 二 32 时 ， 上 面 三 个 移 位 运算 分 别 是 移动 0、4 和 8 位 ， 得 到 结果 : 

lval OxFEDCBA98 

aval OxFFEDCBA9 

uval OxOOFEDCBA 

不 过 这 种 行为 对 于 C 程序 来 说 是 没有 保证 的 ， 所 以 应 该 保持 位 移 量 小 于 待 移 位 值 的 位 数 。 

另 一 方面 ，Java 特别 要 求 位 移 数量 应 该 按照 我 们 前 面 所 讲 的 求 模 的 方法 来 计算 。 


| 旁 注 | 与 移 位 运算 有 关 的 操作 符 优先 级 问题 

常常 有 人 会 写 这 样 的 表达 式 1<<2+3<<4， 本 意 是 (1<<2)+(3<<4) 。 但 是 在 C 语言 中 ， 
前 面 的 表达 式 等 价 于 1<<(2+3)<<4， 这 是 由 于 加 法 (和 减法 ) 的 优先 级 比 移 位 运算 要 高 。 
然后 ， 按 照 从 左 至 右 结 合 性 规则 ， 括 号 应 该 是 这 样 打 的 (1<<(2+3) ) <<4， 得 到 的 结果 是 
512， 而 不 是 期 望 的 52。 

在 C 表 达 式 中 搞 错 优先 级 是 一 种 常见 的 程序 错误 原因 ， 而 且 常 常 很 难 检查 出 来 。 所 
以 当 你 拿 不 准 的 时 候 ， 请 加 上 括号 ! 


可 练习 题 2 16 填写 下 表 ， 展 示 不 同 移 位 运算 对 单字 节 数 的 影响 。 思 考 移 位 运算 的 最 


好 方式 是 使 用 二 进 制 表示 。 将 最 初 的 值 转换 为 二 进 制 ， 执 行 移 位 运算 ， 然 后 再 转换 回 
十 六 进 制 。 每 个 答案 都 应 该 是 8 个 二 进 制 数字 或 者 2 个 十 六 进 制 数字 。 





x<<3 x>>2 (逻辑 的 ) x>>2 (算术 的 ) 


| 
十 六 进 抽 











2.2 整数 表示 


在 本 节 中 ， 我 们 描述 用 位 来 编码 整数 的 两 种 不 同 的 方式 : 一 种 只 能 表示 非 负 数 ， 而 另 
一 种 能 够 表示 负数 、 零 和 正 数 。 后 面 我 们 将 会 看 到 它们 在 数学 属性 和 机 器 级 实现 方面 密切 
相关 。 我 们 还 会 研究 扩展 或 者 收缩 一 个 已 编码 整数 以 适应 不 同 长 度 表 示 的 效果 。 

图 2-8 列 出 了 我 们 引入 的 数学 术语 ， 用 于 精确 定义 和 描述 计算 机 如 何 编码 和 操作 整 
数 。 这 些 术语 将 在 描述 的 过 程 中 介绍 ， 图 在 此 处 列 出 作为 参考 。 
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含义 
二 进 制 转 补 码 
二 进 制 转 无 符号 数 
无 符号 数 转 二 进 制 
无 符号 转 补 码 
补 码 转 二 进 制 
补 码 转 无 符号 数 
最 小 补 码 值 
最 大 补 码 值 
最 大 无 符号 数 
补 码 加 法 
无 符号 数 加 法 
补 码 乘法 
无 符号 数 乘法 
补 码 取 反 
无 符号 数 取 反 
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图 2-8 整数 的 数据 与 算术 操作 术语 。 下 标 ww 表示 数据 表示 中 的 位 数 


2.2.1 整 型 数据 类 型 


C 语言 支持 多 种 整 型 数据 类 型 一 一 表示 有 限 范围 的 整数 。 这 些 类 型 如 图 2-9 和 图 2- 10 
所 示 ， 其 中 还 给 出 了 “典型 ”32 位 和 64 位 机 器 的 取 值 范围 。 每 种 类 型 都 能 用 关键 字 来 指 
定 大 小 ， 这 些 关 键 字 包 括 char、short、1long， 同 时 还 可 以 指示 被 表示 的 数字 是 非 负 数 
(声明 为 unsigned)， 或 者 可 能 是 负数 (默认 )。 如 图 2-3 所 示 ， 为 这 些 不 同 的 大 小 分 配 的 
字 节 数 根据 程序 编译 为 32 位 还 是 64 位 而 有 所 不 同 。 根 据 字 节 分 配 ， 不 同 的 大 小 所 能 表示 
的 值 的 范围 是 不 同 的 。 这 里 给 出 来 的 唯一 一 个 与 机 器 相关 的 取 值 范围 是 大 小 指示 符 long 
的 。 大 多 数 64 位 机 器 使 用 8 个 字 节 的 表示 ， 比 32 位 机 器 上 使 用 的 4 个 字 节 的 表示 的 取 值 
范围 大 很 多 。 


[signed] char —128 127 
unsigned char 0 255 


short —32 768 32 767 
unsigned short 0 65.535 
dn -2 147 483 648 2 147 483 647 
unsigned 0 4 294 967 295 
long —2 147 483 648 2 147 483 647 
unsigned long 0 4 294 967 295 
iES2 —2 147 483 648 2 147 483 647 
Uint32 € 0 4 294 967 295 


int64_t -9 223 372 036 854 775 808 9 223 372 036 854 775 807 
uint64 t 0 18 446 744 073 709 551 615 |- 














图 2-9 32 位 程序 上 C 语言 整 型 数据 类 型 的 典型 取 值 范围 





[signed]char 
unsigned char 


short 
unsigned short 
rt 

unsigned 

long 

unsigned long 
TE 32. 七 
Uine32 七 
int64 七 
ULNESA € 

















最 小 值 

—128 
0 255 
-32 768 32 767 
0 65 535 
-2 147 483 648 2 147 483 647 
0 4 294 967 295 
-9 223 372 036 854 775 808 9 223 372 036 854 775 807 
0 18 446 744 073 709 551 615 
-2 147 483 648 2 147 483 647 
0 4 294 967 295 


-9 223 372 036 854 775 808 
0 





9 223 372 036 854 775 807 
18 446 744 073 709 551 615 





图 2-10 64 位 程序 上 C 语言 整 型 数据 类 型 的 典型 取 值 范围 


图 2-9 和 图 2-10 中 一 个 很 值得 注意 的 特点 是 取 值 范围 不 是 对 称 的 一 一 负数 的 范围 比 整 
数 的 范围 大 1。 当 我 们 考虑 如 何 表示 负数 的 时 候 ， 会 看 到 为 什么 会 这 样 。 

C 语言 标准 定义 了 每 种 数据 类 型 必须 能 够 表示 的 最 小 的 取 值 范围 。 如 图 2-11 所 示 ， 它 
们 的 取 值 范围 与 图 2-9 和 图 2-10 所 示 的 典型 实现 一 样 或 者 小 一 些 。 特 别 地 ， 除 了 固定 大 小 
的 数据 类 型 是 例外 ， 我 们 看 到 它们 只 要 求 正 数 和 负数 的 取 值 范围 是 对 称 的 。 此 外 ， 数 据 类 
型 int 可 以 用 2 个 字 节 的 数字 来 实现 ， 而 这 几乎 回 退 到 了 16 位 机 器 的 时 代 。 还 可 以 看 到 ， 
long 的 大 小 可 以 用 4 个 字 节 的 数字 来 实现 ， 对 32 位 程序 来 说 这 是 很 典型 的 。 固 定 大 小 的 数 
据 类 型 保证 数值 的 范围 与 图 2-9 给 出 的 典型 数值 一 致 ， 包 括 负数 与 正 数 的 不 对 称 性 。 


[signed] chaz 
unsigned char 
short 
unsigned short 
int 

unsigned 

long 

unsigned long 
32 尺 

轴 贡 32 省 


rt6u. t 
uint64_t 


图 2-11 


-127 
0 


-32 767 
0 


-32 767 
0 


-2 147 483 647 
0 


-2 147 483 648 
0 


-9 223 372 036 854 775 808 





0 


127 
255 


32 767 
65 535 
32 767 
65 535 
2 147 483 647 
4 294 967 295 
2 147 483 647 
4 294 967 295 


9 223 372 036 854 775 807 
18 446 744 073 709 551 615 


C 语言 的 整 型 数据 类 型 的 保证 的 取 值 范围 。C 语言 标准 要 求 


这 些 数据 类 型 必须 至 少 具有 这 样 的 取 值 范围 


EEEEE (@ 和 二 地 WJ 颖 洛 泗 C、C++ 和 Java 中 的 有 符号 和 无 符号 数 


C 和 C++ 都 支持 有 符号 (默认 ) 和 无 符号 数 。Java 只 支持 有 符号 数 。 


2.2.2 无 符号 数 的 编码 


假设 有 一 个 整数 数据 类 型 有 w 位 。 我 们 可 以 将 位 向 量 写成 工 ， 表 示 整 个 向 量 ， 
…，xzoj， 表 示 向 量 中 的 每 一 位 。 把 工 看 做 一 个 二 进 制 表 示 的 数 ， 就 获得 


成 Lz。-i ， 之 ww 一 2 


或 者 写 
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了 工 的 无 符号 表示 。 在 这 个 编码 中 ， 每 个 位 xz; 都 取 值 为 0 或 1， 后 一 种 取 值 意味 着 数值 2 应 
为 数字 值 的 一 部 分 。 我 们 用 一 个 函数 B2U.(Binary to Unsigned 的 缩写 ， 长 度 为 w) 来 表示 : 
原理 : 无 符号 数 编码 的 定义 
对 向 量 a Tue 一 2 9， “"", ws 
B2U, (2) = > zi2: (2.1) 
在 这 个 等 式 中 ， 符 号 “二 ”表示 左边 被 定义 为 等 于 右边 。 函 数 B2U. 将 一 个 长 度 为 ww 的 
0、1 串 映射 到 非 负 整数 。 举 一 个 示例 ， 图 2-11 展示 的 是 下 面 几 种 情况 下 B2U 给 出 的 从 位 
向 量 到 整数 的 映射 : 
B2U4([0001]) =0 .2 十 0 2 十 0. 2 十 1.2 天 0 十 0 十 0 十 1 三 1 
B2U,([0101]) =0 .2 十 1.22 十 0.2 十 1.2" 王 0 十 4 十 0 二 1 王 5 
B2U,([1011]) =1.2 二 0.2 十 1.2 二 1.2" 一 8 十 0 十 2 二 1 一 11 
B2U,([1111])=1.23 二 1.2 十 1.2 十 1.20 一 8 十 4 十 2 十 1 一 15 
在 图 中 ， 我 们 用 长 度 为 2 的 指向 右 侧 箭头 的 条 表示 每 个 位 的 位 置 ?。 每 个 位 向 量 对 应 
的 数值 就 等 于 所 有 值 为 1 的 位 对 应 的 条 2 -5 本 基 天 本 到 
的 长 度 之 和 。 | 
让 我 们 来 考虑 一 下 z 位 所 能 表示 21-， 一 
的 值 的 范围 。 最 小 值 是 用 位 向 量 L00… ”>o-1 欧 


62. 2 


0] 表 示 ， 也 就 是 整数 值 0， 而 最 大 值 是 01234567891011213141516 
用 位 向 量 [11…1] 表 示 ， 也 就 是 整数 值 
2 [0001] 


UMazu= 2)2 一 2 一 1 。 以 4 位 情况 [olol] 


为 例 ，UMaz 一 B2U4 ([1111])==2: 一 [1011] 
1 二 15。 因 此 ， 函 数 B2U,。 能 够 被 定义 [LI 
为 一 个 映射 B2U。: {0，1}* 一 {0，…， 图 2-12 ”w=4 的 无 符号 数 示例 。 当 二 进 制 表示 
2 一 1)， 中 位 i 为 1， 数值 就 会 相应 加 上 2 

无 符号 数 的 二 进 制 表示 有 一 个 很 重要 的 属性 ， 也 就 是 每 个 介 于 0 一 2 一 1 之 间 的 数 都 
有 唯一 一 个 双 位 的 值 编码 。 例 如 ， 十 进 制 值 11 作为 无 符号 数 ， 只 有 一 个 4 位 的 表示 ， 即 
[L1011]。 我 们 用 数学 原理 来 重点 讲述 它 ， 先 表述 原理 再 解释 。 

原理 : 无 符号 数 编码 的 唯一 性 

函数 B2U, 是 一 个 双 射 。 

数学 术语 双 射 是 指 一 个 函数 上 有 两 面 : 它 将 数值 zx 映射 为 数值 y>， 即 > 一 FCz)， 但 它 
也 可 以 反 向 操作 ， 因 为 对 每 一 个 y 而 言 ， 都 有 唯一 一 个 数值 z 使 得 F(z) 一 >。 这 可 以 用 反 
函数 广 ! 来 表示 ， 在 本 例 中 ， 即 z 一 广 :(y)。 函 数 B2U 将 每 一 个 长 度 为 w 的 位 向 量 都 映 
射 为 0 一 2 一 1 之 间 的 一 个 唯一 值 ; 反 过 来 ， 我们 称 其 为 U2B,( 即 “无 符号 数 到 二 进 制 ”)， 
在 0~2* 一 1 之 间 的 每 一 个 整数 都 可 以 映射 为 一 个 唯一 的 长 度 为 ww 的 位 模式 。 


2.2.3 补 码 编码 

对 于 许多 应 用 ， 我 们 还 希望 表示 负数 值 。 最 常见 的 有 符号 数 的 计算 机 表示 方式 就 是 补 
码 (two’ s-complement) 形 式 。 在 这 个 定义 中 ， 将 字 的 最 高 有 效 位 解释 为 负 权 (negative 
weight) 。 我 们 用 函数 B2T, (Binary to Two’s-complement 的 缩写 ， 长 度 为 w) 来 表示 : 





原理 : 补 码 编 码 的 定义 


对 向 量 2 Tw—-2» “"", wh): 
w—2 
B2T, (2) =— zx, 12™ + Ori? (2. 3) 
i=0 


最 高 有 效 位 xz。_1 也 称 为 符号 位 ， 它 的 “权重 ”为 一 2*!， 是 无 符号 表示 中 权重 的 负 
数 。 符 号 位 被 设置 为 1 时 ， 表 示 值 为 负 ， 而 当 设 置 为 0 时 ， 值 为 非 负 。 这 里 来 看 一 个 示 
例 ， 图 2-13 展示 的 是 下 面 几 种 情况 下 B2T 给 出 的 从 位 向 量 到 整数 的 映射 。 

B2T,([0001]) = 一 0。23 十 0。2: 十 0。2: 十 1.20 王 0 二 0 二 0 二 1= 1 
B2T,([0101]) = 一 0.2: 十 1.22 十 0.2: 十 1.20 一 0 十 4 十 0 十 1 = 
B2T,([1011]) 一 一 1.23 十 0。22 十 1。2! 十 1.。2。 一 一 8 十 0 十 2 十 1 = 一 5 
B2T,([1111]) = 一 1.23 十 1.2: 十 1。2! 十 1。2" 王 一 8 十 4 十 2 十 1 = 一 1 

在 这 个 图 中 ， 我 们 用 向 左 指 的 条 表 
示 符 号 位 具有 负 权 重 。 于 是 ， 与 一 个 位 
向 量 相 关联 的 数值 是 由 可 能 的 向 左 指 的 
条 和 向 右 指 的 条 加 起 来 决定 的 。 

我 们 可 以 看 到 ， 图 2-12 和 图 2-13 
中 的 位 模式 都 是 一 样 的 ， 对 等 式 (2.2) 

和 等 式 (2.4) 来 说 也 是 一 样 ， 但 是 当 最 [oool] 
高 有 效 位 是 1 时 ， 数 值 是 不 同 的 ， 这 是 [olol 
因为 在 一 种 情况 中 ， 最 高 有 效 位 的 权重 [loll 汪 
是 十 8， 而 在 另 一 种 情况 中 ， 它 的 权重 


5 
(2. 4) 





[1111] 


是 一 8。 
让 我 们 来 考虑 一 下 ww 位 补 码 所 能 图 2-13 w=4 的 补 码 示 例 。 把 位 3 作为 符号 位 ， 因 此 当 它 
表示 的 值 的 范围 。 它 能 表示 的 最 小 值 是 为 1 时， 对 数值 的 影响 是 一 2 一 一 8。 这 个 权重 


位 向 量 [10…0]( 也 就 是 设置 这 个 位 为 负 0 0 
权 ， 但 是 清除 其 他 所 有 的 位 )， 其 整数 值 为 TMin, 二 一 2*-!。 而 最 大 值 是 位 向 量 [01…1] 


(清除 具有 负 权 的 位 ， 而 设置 其 他 所 有 的 位 ) ， 其 整数 值 为 TMaz 二 2' 一 2 一 1 。 以 


长 度 为 4 为 例 ， 我 们 有 TMins = B2T, ([1000]))== 一 2 二 一 8,， 而 TMazxs 一 B2T (LO0111]) 王 
2 十 2 十 2 一 4 十 2 十 1 一 7。 

我 们 可 以 看 出 B2T. 是 一 个 从 长 度 为 w 的 位 模式 到 TMin, 和 了 TMazu 之 间 数 字 的 映 
射 ， 写 作 B2T,: {0，1}* 一 {TMin,，…，TMazxw,}。 同 无 符号 表示 一 样 ， 在 可 表示 的 取 
值 范 围 内 的 每 个 数字 都 有 一 个 唯一 的 世 位 的 补 码 编码 。 这 就 导出 了 与 无 符号 数 相似 的 补 码 
数 原理 : 

原理 : 补 码 编码 的 唯一 性 

函数 B2T, 是 一 个 双 射 。 

我 们 定义 函数 T2B,( 即 “ 补 码 到 二 进 制 ”) 作 为 B2T, 的 反 函 数 。 也 就 是 说 ， 对 于 每 个 
数 xz， 满足 TMin, 达 zx 坏 TMazxs， 则 T2B, (x) 是 的 (唯一 的 )w 位 模式 。 
ER 练习 题 2. 17 假设 w 一 4， 我们 能 给 每 个 可 能 的 十 六 进 制 数 字 赋 予 一 个 数值 ， 假 设 用 

一 个 无 符号 或 者 补 码 表示 。 请 根据 这 些 表 示 ， 通 过 写 出 等 式 (2.1) 和 等 式 (2.3) 所 示 的 

求 和 公式 中 的 2 的 非 零 次 医 ， 填 写 下 表 : 
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23+22+2'=14 一 23+22+2 一 一 2 











图 2-14 展示 了 针对 不 同 字 长 ， 几 个 重要 数字 的 位 模式 和 数值 。 前 三 个 给 出 的 是 可 表 
示 的 整数 的 范围 ， 用 UMax,,、TMin, 和 TMaz 来 表示 。 在 后 面 的 讨论 中 ， 我 们 还 会 经 
常 引 用 到 这 三 个 特殊 的 值 。 如 果 可 以 从 上 下 文中 推断 出 w， 或 者 记 不 是 讨论 的 主要 内 容 
时 ， 我 们 会 省 略 下 标 w， 直 接 引 用 UMax、TMin 和 TMazx。 


| 


数 
UMax,, OxFF OxFFFF OxEEFFFEFFEEF OXFPEEPEEEREEEERERER 
el 255 65 535 4 294 967 295 18 446 744 073 709 551 615 
TMin, 0x80 0x8000 0x80000000 0x8000000000000000 
TMax, Ox7F Ox7FFF Ox FEFFEEEE Ox TFFFFFFFFFFEFEEFE 
| | 
= OxFF OxFEEFE OXFFFFEFFE OXFFFFFFFFFFFEFEFF 
图 2-14 重要 的 数字 。 图 中 给 出 了 数值 和 十 六 进 制 表示 


关于 这 些 数 字 ， 有 几 点 值得 注意 。 第 一 ， 从 图 2-9 和 图 2-10 可 以 看 到 ， 补 码 的 范围 是 
不 对 称 的 ; |TMiz|=|TMaz| 十 1， 也 就 是 说 ，TMiz 没有 与 之 对 应 的 正 数 。 正 如 我 们 将 
会 看 到 的 ， 这 导致 了 补 码 运算 的 某 些 特殊 的 属性 ， 并 且 容 易 造 成 程序 中 细微 的 错误 。 之 所 
以 会 有 这 样 的 不 对 称 性 ， 是 因为 一 半 的 位 模式 (符号 位 设置 为 1 的 数 ) 表 示 负 数 ， 而 另 一 半 
(符号 位 设置 为 0 的 数 ) 表 示 非 负数 。 因 为 0 是 非 负数 ， 也 就 意味 着 能 表示 的 整数 比 负数 少 
一 个 。 第 二 ， 最 大 的 无 符号 数值 刚好 比 补 码 的 最 大 值 的 两 倍 大 一 点 : UMazv 一 2TMazu 十 
1。 补 码 表示 中 所 有 表示 负数 的 位 模式 在 无 符号 表示 中 都 变 成 了 正 数 。 图 2-14 也 给 出 了 常 
数 一 1 和 0 的 表示 。 注 意 一 1 和 UMaz 有 同样 的 位 表示 一 一 一 个 全 1 的 串 。 数 值 0 在 两 种 
表示 方式 中 都 是 全 0 的 串 。 

C 语言 标准 并 没有 要 求 要 用 补 码 形式 来 表示 有 符号 整数 ， 但 是 几乎 所 有 的 机 器 都 是 这 
么 做 的 。 程 序 员 如 果 希 望 代码 具有 最 大 可 移植 性 ， 能 够 在 所 有 可 能 的 机 器 上 运行 ， 那 么 除 
了 图 2-11 所 示 的 那些 范围 之 外 ， 我 们 不 应 该 假设 任何 可 表示 的 数值 范围 ， 也 不 应 该 假设 
有 符号 数 会 使 用 何 种 特殊 的 表示 方式 。 另 一 方面 ， 许 多 程序 的 书写 都 假设 用 补 码 来 表示 有 
符号 数 ， 并 且 具 有 图 2-9 和 图 2-10 所 示 的 “典型 的 ” 取 值 范围 ， 这 些 程序 也 能 够 在 大 量 的 
机 器 和 编译 器 上 移植 。C 库 中 的 文件 < limits.h> 定 义 了 一 组 常量 ， 来 限定 编译 器 运行 的 
这 人 台 机 器 的 不 同 整 型 数据 类 型 的 取 值 范围 。 比 如 ， 它 定义 了 常量 INT_MAX、INT_MIN 和 
UINT_MAX， 它 们 描述 了 有 符号 和 无 符号 整数 的 范围 。 对 于 一 个 补 码 的 机 器 ， 数 据 类 型 int 
有 也 位 ， 这 些 常 量 就 对 应 于 TMazx,,、TMin, 和 UMaz 的 值 。 
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旁 注 | 关于 确定 大 小 的 整数 类 型 的 更 多 内 容 

对 于 某 些 程序 来 说 ， 用 某 个 确定 大 小 的 表示 来 编码 数据 类 型 非常 重要 。 例 如 ， 当 编写 程序 ， 
使 得 机 器 能 够 按照 一 个 标准 协议 在 因特网 上 通信 时 ， 让 数据 类 型 与 协议 指定 的 数据 类 型 兼容 是 
非常 重要 的 。 我 们 前 面 看 到 了 ， 菜 些 C 数 据 类 型 ， 特 别 是 long 型 ， 在 不 同 的 机 器 上 有 不 同 的 取 
值 范围 ， 而 实际 上 C 语言 标准 只 指定 了 每 种 数据 类 型 的 最 小 范围 ， 而 不 是 确定 的 范围 。 虽 然 我 
们 可 以 选择 与 大 多 数 机 器 上 的 标准 表示 兼容 的 数据 类 型 ， 但 是 这 也 不 能 保证 可 移植 性 。 

我 们 已 经 见 过 了 32 位 和 64 位 版 本 的 确定 大 小 的 整数 类 型 (图 2-3)， 它 们 是 一 个 更 
大 数据 类 型 类 的 一 部 分 。ISO C99 标准 在 文件 stdint.h 中 引入 了 这 个 整数 类 型 类 。 这 
个 文件 定义 了 一 组 数据 类 型 ， 它 们 的 声明 形 如 intN t 和 uintN t， 对 不 同 的 N 值 指定 
N 位 有 符号 和 无 符号 整数 。N 的 具体 值 与 实现 相关 ， 但 是 大 多 数 编译 器 允许 的 值 为 8、 
16、32 和 64。 因 此 ， 通 过 将 它 的 类 型 声明 为 uint16 t， 我 们 可 以 无 歧义 地 声明 一 个 16 
位 无 符号 变量 ， 而 如 果 上 声明 为 int32 t， 就 是 一 个 32 位 有 符号 变量 。 

这 些 数据 类 型 对 应 着 一 组 宏 ， 定 义 了 每 个 N 的 值 对 应 的 最 小 和 最 大 值 。 这 些 宏 名 字 
形 如 INTN MIN、INTN MAX 和 UINTN MAX。 

确定 宽度 类 型 的 带 格式 打印 需要 使 用 宏 ， 以 与 系统 相关 的 方式 扩展 为 格式 串 。 因 
此 ， 举 个 例子 来 说 ， 变 量 x 和 yy 的 类 型 是 int32 七 和 uint64 七 可 以 通过 调用 Printf 
来 打印 它们 的 值 ， 如 下 所 示 : 

这 这 二 = XM PRId32" 7 = WM PRIU64 I\n", x, y); 
编译 为 64 位 程序 时 ， 宏 PRId32 展开 成 字符 串 “d”， 宏 PRIu64 则 展开 成 两 个 字符 串 
“1”“u”。 当 C 预 处 理 器 遇 到 仅 用 空格 (或 其 他 空白 字符 ) 分 隔 的 一 个 字符 串 常量 序列 时 ， 
就 把 它们 串联 起 来 。 因 此 ， 上 面 的 printf 调用 就 变 成 了 : 

printf ("x = %d, y = %lu\n", x, y); 
使 用 宏 能 保证 : 不 论 代码 是 如 何 被 编译 的 ， 都 能 生成 正确 的 格式 字符 串 。 

“关于 整数 数据 类 型 的 取 值 范围 和 表示 ，Java 标准 是 非常 明确 的 。 它 要 求 采 用 补 码 表示 ， 取 


值 范围 与 图 2-10 中 64 位 的 情况 一 样 。 在 Java 中 ， 单 字 节 数 据 类 型 称 为 byte， 而 不 是 char。 这 
些 非常 具体 的 要 求 都 是 为 了 保证 无 论 在 什么 机 器 上 运行 ，Java 程序 都 能 表现 地 完全 一 样 。 


国 末 有 符号 数 的 其 他 表示 方法 

有 符号 数 还 有 两 种 标准 的 表示 方法 : 

反 码 (Ones”Complement): 除了 最 高 有 效 位 的 权 是 一 (2 :一 1) 而 不 是 一 2"  ， 它 
和 补 码 是 一 样 的 : 


w—2 
B20O, (2) =— zw i (2” 一 1) 十 D2) zi2 
原 码 (Sign-Magnitude) : 最 高 有 效 位 是 符号 位 ， 用 来 确定 剩 下 的 位 应 该 取 负 权 还 是 正 权 : 
w—2 

B2S,(2) = (— Dw . (Dzi2') 
这 两 种 表示 方法 都 有 一 个 奇怪 的 属性 ， 那 就 是 对 于 数字 0 有 两 种 不 同 的 编码 方式 。 
这 两 种 表示 方法 ， 把 [00…0] 都 解释 为 十 0。 而 值 一 0 在 原 码 中 表示 为 [10…0]， 在 反 码 
中 表示 为 [11…1]。 虽 然 过 去 生产 过 基于 反 码 表示 的 机 器 ， 但 是 几乎 所 有 的 现代 机 器 都 

使 用 补 码 。 我 们 将 看 到 在 浮 点 数 中 有 使 用 原 码 编码 。 
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请 注意 补 码 (Two’”’s complement) 和 反 码 (Ones’”’complement) 中 搬 号 的 位 置 是 不 同 
的 。 术 语 补 码 来 源 于 这 样 一 个 情况 ， 对 于 非 负 数 z， 我们 用 2* 一 (这 里 只 有 一 个 2) 来 
计算 一 工 的 也 位 表示 。 术 语 反 码 来 源 于 这 样 一 个 属性 ， 我 们 用 [111…1] 一 zx( 这 里 有 很 多 
个 1) 来 计算 一 工 的 反 码 表示 。 


为 了 更 好 地 理解 补 码 表示 ， 考 虑 下 面 的 代码 : 


Short x = 12345; 
Short mx = -x; 


hn ww 有 一 


show_bytes((byte_pointer) &x, sizeof (short)); 
show_bytes((byte_pointer) &mx, sizeof (short)); 

当 在 大 端 法 机 器 上 运行 时 ， 这 段 代码 的 输出 为 30 39 和 cf c7， 指 明 x 的 十 六 进 制 表 
示 为 0x3039， 而 mx 的 十 六 进 制 表示 为 0xcFC7。 将 它们 展开 为 二 进 制 ， 我 们 得 到 x 的 位 
模式 为 L0011000000111001]， 而 mx 的 位 模式 为 [1100111111000111]。 如 图 2-15 所 示 ， 等 
式 (2. 3) 对 这 两 个 位 模式 生成 的 值 为 12 345 和 一 12 345。 


53 191 


| 
| 
| 


$12 

1 024 

2 048 
4096 

8 192 

16 384 
土 32 768 


于 
出 
于 
0 
0 
0 
1 
1 
于 
下 
1 
1 
0 
0 
站 
1 





图 2-15 12 345 和 一 12 345 的 补 码 表示 ， 以 及 53 191 的 无 符号 表示 。 注 意 后 面 两 个 数 有 相同 的 位 表示 


区 练习 题 2. 18 在 第 3 章 中 ， 我们 将 看 到 由 反 汇 编 器 生成 的 列表 ， 反 汇编 器 是 一 种 将 可 
执行 程序 文件 转换 回 可 读 性 更 好 的 ASCII 码 形式 的 程序 。 这 些 文件 包含 许多 十 六 进 制 
数字 ， 都 是 用 典型 的 补 码 形式 来 表示 这 些 值 。 能 够 认识 这 些 数字 并 理解 它们 的 意义 
(例如 它们 是 正 数 还 是 负数 )， 是 一 项 重要 的 技巧 。 

在 下 面 的 列表 中 ， 对 于 标号 为 A~I( 标 记 在 右边 ) 的 那些 行 ， 将 指令 名 (sub、mov 
和 add) 右 边 显 示 的 (32 位 补 码 形式 表示 的 ) 十 六 进 制 值 转换 为 等 价 的 十 进 制 值 。 


4004d0: 48 81 ec e0 02 00 00 sub $0x2e0,%rsp A. 
4004d7: 48 8b 44 24 a8 moV -0x58(%rsP) ,hrax B. 
4004dc: 48 03 47 28 add Ox28(%rdi) ,%rax S; 
4004e0: 48 89 44 24 d0 mov %rax,—-0x30(%rsp) D. 


第 2 间 信息 的 表示 和 处 理 49 








4004e5: 48 8b 44 24 78 mov Ox78(%rsp) ,%rax BE 
4004ea: 48 89 87 88 00 00 00 mov %rax,Ox88(%rdi) F. 
4004f1: 48 8b 84 24 f8 01 00 mov Ox1f8(%rsp) ,%rax G. 
4004f8: 00 

4004f9: 48 03 44 24 08 add Ox8(%rsp) ,Xrax 

4004fe: 48 89 84 24 c0 00 00 mov %rax,OxcO(%rsp) H. 
400505: 00 

400506: 48 8b 44 d4 b8 mov -0x48(%rsp,%rdx,8),%rax II. 


2.2.4 有 符号 数 和 无 符号 数 之 间 的 转换 


C 语 言 允许 在 各 种 不 同 的 数字 数据 类 型 之 间 做 强制 类 型 转换 。 例 如 ， 假 设 变量 x 声明 
为 int，u 声明 为 unsigned。 表 达 式 (unsigned)x 会 将 x 的 值 转换 成 一 个 无 符号 数值 ， 而 
(int)u 将 u 的 值 转换 成 一 个 有 符号 整数 。 将 有 符号 数 强制 类 型 转换 成 无 符号 数 ， 或 者 反 
过 来 ， 会 得 到 什么 结果 呢 ? 从 数学 的 角度 来 说 ， 可 以 想象 到 几 种 不 同 的 规则 。 很 明显 ， 对 
于 在 两 种 形式 中 都 能 表示 的 值 ， 我 们 是 想 要 保持 不 变 的 。 另 一 方面 ， 将 负数 转换 成 无 符号 
数 可 能 会 得 到 0。 如 果 转 换 的 无 符号 数 太 大 以 至 于 超出 了 补 码 能 够 表示 的 范围 ， 可 能 会 得 
到 TMaz。 不 过 ， 对 于 大 多 数 C 语言 的 实现 来 说 ， 对 这 个 问题 的 回答 都 是 从 位 级 角度 来 看 
的 ， 而 不 是 数 的 角度 。 

比如 说 ， 考 虑 下 面 的 代码 : 


Short int V = -12345; 
2 unsigned short uv = (unsigned short) v; 
3 printf("v = %d, uv = hu\n", Vv, uv); 


在 一 台 采 用 补 码 的 机 器 上 ， 上 述 代 码 会 产生 如 下 输出 : 
v = -12345, uv = 53191 


我 们 看 到 ， 强 制 类 型 转换 的 结果 保持 位 值 不 变 ， 只 是 改变 了 解释 这 些 位 的 方式 。 在 图 2-15 
中 我 们 看 到 过 ， 一 12 345 的 16 位 补 码 表示 与 53 191 的 16 位 无 符号 表示 是 完全 一 样 的 。 将 
short 强制 类 型 转换 为 unsigned short 改变 数值 ， 但 是 不 改变 位 表示 。 

类 似 地 ， 考 虑 下 面 的 代码 : 


unsigned u = 4294967295u;  /* UMax */ 
int tu = (int) u; 
printf("u = %u, tu = %d\n", u, tu); 


1 

2 

3 

在 一 台 采 用 补 码 的 机 器 上 ， 上 述 代 码 会 产生 如 下 输出 : 
u = 4294967295, tu = -1 


从 图 2-14 我 们 可 以 看 到 ， 对 于 32 位 字 长 来 说 ， 无 符号 形式 的 4 294 967 295(UMazx3s) 
和 补 码 形式 的 一 1 的 位 模式 是 完全 一 样 的 。 将 unsigned 强制 类 型 转换 成 int， 底 层 的 位 
表示 保持 不 变 。 

对 于 大 多 数 C 语 言 的 实现 ， 处 理 同 样 字 长 的 有 符号 数 和 无 符号 数 之 间 相 互 转 换 的 一 般 规 
则 是 : 数值 可 能 会 改变 ,但 是 位 模式 不 变 。 让 我 们 用 更 数学 化 的 形式 来 描述 这 个 规则 。 我 们 
定义 函数 U2B. 和 T2B.， 它 们 将 数值 映射 为 无 符号 数 和 补 码 形式 的 位 表示 。 也 就 是 说 ， 给 
定 0 二 x 过 UMazx 范围 内 的 一 个 整数 z+， 函数 U2B,(z) 会 给 出 工 的 唯一 的 记 位 无 符号 表示 。 
相似 地 ， 当 zz 满足 TMiz 和 rz 委 TMaz。， 函 数 T2B.(z) 会 给 出 的 唯一 的 芭 位 补 码 表示 。 

现在 ， 将 函数 T2U。 定义 为 T2U, (zx) 二 B2U,(T2B, (zx))。 这 个 函数 的 输入 是 一 个 





TMiru 一 TMazu 的 数 ， 结 果 得 到 一 个 0~UMazx 的 值 ， 这 里 两 个 数 有 相同 的 位 模式 ， 除 
了 参数 是 无 符号 的 ， 而 结果 是 以 补 码 表示 的 。 类 似 地 ， 对 于 0~UMax 之 间 的 值 xz， 定义 函 
数 U2T, 为 U2T,(zx) 二 B2T,(U2B,(zx))。 生 成 一 个 数 的 无 符号 表示 和 x 的 补 码 表 示 相 同 。 

继续 我 们 前 面 的 例子 ， 从 图 2-15 中 ,我 们 看 到 T2Ui (一 12 345) 一 53 191， 并且 
U2Ts(53 191) 二 一 12 345。 也 就 是 说 ， 十 六 进 制 表示 写作 0xcFc7 的 16 位 位 模式 既是 
一 12 345 的 补 码 表示 ， 又 是 53 191 的 无 符号 表示 。 同 时 请 注意 12 345 十 53 191 一 65 536 一 
2”。 这 个 属性 可 以 推广 到 给 定位 模式 的 两 个 数值 ( 补 码 和 无 符号 数 ) 之 间 的 关系 。 类 似 地 ， 
从 图 2-14 我 们 看 到 T2Us (一 1) 二 4294 967 295， 并 且 U2Tss (4 294 967 295) 二 一 1]。 也 就 是 
说 ， 无 符号 表示 中 的 UMaz 有 着 和 补 码 表示 的 一 1 相同 的 位 模式 。 我 们 在 这 两 个 数 之 间 也 
能 看 到 这 种 关系 : 1 十 UMaz。 一 2”。 

接 下 来 ， 我们 看 到 函数 U2 描述 了 从 无 符号 数 到 补 码 的 转换 ， 而 T2U 描述 的 是 补 码 
到 无 符号 的 转换 。 这 两 个 函数 描述 了 在 大 多 数 C 语言 实现 中 这 两 种 数据 类 型 之 间 的 强制 类 
型 转换 效果 。 
七 S 练习 题 2. 19 利用 你 解答 练习 题 2. 17 时 填写 的 表格 ， 填 写 下 列 描述 函数 T2U, 的 表格 。 





72U400) 








通过 上 述 这 些 例 子 ， 我 们 可 以 看 到 给 定位 模式 的 补 码 与 无 符号 数 之 间 的 关系 可 以 表示 
为 函数 T2U 的 一 个 属性 : 
原理 : 补 码 转换 为 无 符号 数 
对 满足 TMin, 志 Xx 忒 TMax 的 XT 有 : 
| (2. 5) 
名 0 
比如 ， 我 们 看 到 T2Uie (一 12 345) 王 一 12 345 十 2 一 53 191， 同 时 T2U, (一 1)== 一 1 十 
2”=UMazx,。 
该 属性 可 以 通过 比较 公式 (2. 1) 和 公式 (2. 3) 推 导出 来 。 
推导 : 补 码 转 换 为 无 符号 数 
比较 等 式 (2. 1) 和 等 式 (2. 3) ， 我 们 可 以 发 现 对 于 位 模式 工 ， 如 果 我 们 计算 B2U, (z) 一 
B2T,(z) 之 差 ， 从 0 到 w 一 2 的 位 的 加 权 和 将 互相 抵消 掉 ， 剩 下 一 个 值 ，B2U.(Z) 一 B2T。(Z) 一 
Zui(2” 一 (一 2”)) 一 zw12”"。 这 就 得 到 一 个 关系 8 B2U,(2) 二 x。_12* 十 B2T,(z》。 我 
们 因此 就 有 
B2U,(T2B, (x)) = T2U, (7x) = z+ zw 12™ (2. 6) 
根据 公式 (2. 5) 的 两 种 情况 ， 在 z 的 补 码 表 示 中 ， 位 ze 1 决定 了 x 是否 为 负 。 国 
比如 说 ， 图 2-16 比较 了 当 w==4 时 函数 B2U 和 B2T 是 如 何 将 数值 变 成 位 模式 的 。 对 
补 码 来 说 ， 最 高 有 效 位 是 符号 位 ， 我 们 用 带 向 左 箭头 的 条 来 表示 。 对 于 无 符号 数 来 说 ， 最 
高 有 效 位 是 正 权 重 ， 我 们 用 带 向 右 的 箭头 的 条 来 表示 。 从 补 码 变 为 无 符号 数 ， 最 高 有 效 位 





的 权重 从 一 8 变 为 十 8。 因 此 ， 补 码 表 示 的 负数 如 果 看 成 无 符号 数 ， 值 会 增加 2 二 16。 因 
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图 2-16 ”比较 当 w==4 时 无 符号 表示 和 补 码 表 示 ( 对 补 码 和 无 符号 数 来 说 ， 
最 高 有 效 位 的 权重 分 别 是 一 8 和 十 8， 因 而 产生 一 个 差 为 16) 


图 2-17 说 明了 函数 T2U 的 一 般 行 为 。 如 图 所 示 ， 当 将 一 个 有 符号 数 映射 为 它 相 应 的 
无 符号 数 时 ， 负 数 就 被 转换 成 了 大 的 正 数 ， 而 非 负 数 会 保持 不 变 。 
练习 题 2. 20 ”请 说 明 等 式 (2.5) 是 如 何 应 用 到 解答 练习 题 2. 19 时 生成 的 表格 中 的 各 项 的 。 
反 过 来 看 ， 我 们 希望 推导 出 一 个 无 符号 数 u 和 与 之 对 应 的 有 符号 数 U2T, (ww) 之 间 的 关系 : 
原理 : 无 符号 数 转换 为 补 码 
对 满足 0 过 “SUMazu。 的 wu 有 : 


pt, le (2.7) 


该 原理 证 明 如 下 : 
推导 : 无 符号 数 转换 为 补 码 
设 妈 ==U2B, (x)， 这 个 位 向 量 也 是 U2T,, (w) 的 补 码 表示 。 公 式 (2.1) 和 公式 (2. 3) 结 合 起 来 有 


UZT (2 = (2. 8) 
在 的 无 符号 表示 中 ， 对 公式 (2.7) 的 两 种 情况 来 说 ， 位 us。_1 决 定 了 w 是否 大 于 
TMaz,=2” !—1,。, 国 


图 2-18 说 明了 函数 U2T 的 行为 。 对 于 小 的 数 ( 过 TMazx,)， 从 无 符号 到 有 符号 的 转换 
将 保留 数字 的 原 值 。 对 于 大 的 数 ( 二 TMazx,,)， 数 字 将 被 转换 为 一 个 负数 值 。 


> 二 2Y 
Pt 2” 无 符号 数 无 符号 数 2” +2! 
补 码 0 0 0 0 补 码 


一 2 人 


图 2-17 ”从 补 码 到 无 符号 数 的 转换 。 函 数 
T2U 将 负数 转换 为 大 的 正 数 


= 


图 2-18 从 无 符号 数 到 补 码 的 转换 。 函 数 U2 
把 大 于 2” 一 1 的 数字 转换 为 负 值 





总 结 一 下 ， 我 们 考虑 无 符号 与 补 码 表示 之 间 互 相 转 换 的 结果 。 对 于 在 范围 0 委 z 委 
TMaz。 之 内 的 值 x 而 言 ， 我 们 得 到 T2U, (zx) 二 zx 和 U2T, (zx) 二 +。 也 就 是 说 ， 在 这 个 范 
围 内 的 数字 有 相同 的 无 符号 和 补 码 表示 。 对 于 这 个 范围 以 外 的 数值 ， 转 换 需 要 加 上 或 者 减 
去 2"。 例 如 ， 我 们 有 T2U,( 一 1) 二 一 1 十 2* 一 UMazs 一 一 最 靠近 0 的 负数 映射 为 最 大 的 无 
符号 数 。 在 另 一 个 极端 ， 我 们 可 以 看 到 T2U (TMin,) 二 一 2* 1 十 2* 二 2* 1 二 TMaz 十 
1 一 一 最 小 的 负数 映射 为 一 个 刚好 在 补 码 的 正 数 范围 之 外 的 无 符号 数 。 使 用 图 2-15 的 示 
例 ， 我 们 能 看 到 T2Uie( 一 12 345) 一 65 563 十 一 12 345 一 53 191 。 


2.2.5 C 语 言 中 的 有 符号 数 与 无 符号 数 


如 图 2-9 和 图 2-10 所 示 ，C 语言 支持 所 有 整 型 数据 类 型 的 有 符号 和 无 符号 运算 。 尽 管 
C 语言 标准 没有 指定 有 符号 数 要 采用 某 种 表示 ， 但 是 几乎 所 有 的 机 器 都 使 用 补 码 。 通 常 ， 
大 多 数 数字 都 默认 为 是 有 符号 的 。 例 如 ， 当 声明 一 个 像 12345 或 者 0x1A2B 这 样 的 常量 时 ， 
这 个 值 就 被 认为 是 有 符号 的 。 要 创建 一 个 无 符号 常量 ， 必 须 加 上 后 缀 字符 “U ”或 者“u’， 
例如 ，12345U 或 者 0x1A2Bu。 

C 语言 允许 无 符号 数 和 有 符号 数 之 间 的 转换 。 虽 然 C 标准 没有 精确 规定 应 如 何 进行 这 
种 转换 ， 但 大 多 数 系统 遵循 的 原则 是 底层 的 位 表示 保持 不 变 。 因 此 ， 在 一 台 采 用 补 码 的 机 
器 上 ， 当 从 无 符号 数 转 换 为 有 符号 数 时 ， 效 果 就 是 应 用 函数 U2T.， 而 从 有 符号 数 转换 为 
无 符号 数 时 ， 就 是 应 用 函数 T2U,, ， 其 中 w 表示 数据 类 型 的 位 数 。 

显 式 的 强制 类 型 转换 就 会 导致 转换 发 生 ， 就 像 下 面 的 代码 : 


int tx, ty; 
unsigned ux, uy; 


wm 上 whN 一 


tx = (int) ux; 
uy = (unsigned) ty; 

另外 ， 当 一 种 类 型 的 表达 式 被 赋值 给 另外 一 种 类 型 的 变量 时 ， 转 换 是 隐 式 发 生 的 ， 就 
像 下 面 的 代码 ; 


int tx, ty; 
unsigned ux, uy; 


wm 上 wmwNP 一 


tx = ux; /* Cast to signed */ 
uy = ty; /* Cast to unsigned */ 

当 用 printf 输出 数值 时 ， 分别 用 指示 符 %d、%su 和 sx 以 有 符号 十 进 制 、 无 符号 十 进 制 
和 十 六 进 制 格式 输出 一 个 数字 。 注 意 printf 没有 使 用 任何 类 型 信息 ， 所 以 它 可 以 用 指示 
符 su 来 输出 类 型 为 int 的 数值 ， 也 可 以 用 指示 符 sq 输出 类 型 为 unsigned 的 数值 。 例 如 ， 
考虑 下 面 的 代码 : 


int x =: -1} 
unsigned u = 2147483648; /* 2 to the 3ist */ 


printf("x = Yu = %d\n", x, x); 
printf("u = hu = %d\n", u, u); 
当 在 一 个 32 位 机 器 上 运行 时 ， 它 的 输出 如 下 : 


x = 4294967295 = -1 
u = 2147483648 = -2147483648 


wm 上 wmwN 一 
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在 这 两 种 情况 下 ，printf 首先 将 这 个 字 当 作 一 个 无 符号 数 输 出 ， 然 后 把 它 当 作 一 个 有 
符号 数 输 出 。 以 下 是 实际 运行 中 的 转换 函数 : T2U3s (一 1) 二 UMazxsz 二 2” 一 1 和 U2Ts (23 ) 一 
23 一 22 一 一 23 =TMinss。 

由 于 C 语言 对 同时 包含 有 符号 和 无 符号 数 表达 式 的 这 种 处 理 方式 ， 出 现 了 一 些 奇特 的 
行为 。 当 执行 一 个 运算 时 ， 如 果 它 的 一 个 运算 数 是 有 符号 的 而 另 一 个 是 无 符号 的 ， 那 么 C 
语言 会 隐 式 地 将 有 符号 参数 强制 类 型 转换 为 无 符号 数 ， 并 假设 这 两 个 数 都 是 非 负 的 ， 来 执 
行 这 个 运算 。 就 像 我 们 将 要 看 到 的 ， 这 种 方法 对 于 标准 的 算术 运算 来 说 并 无 多 大 差异 ， 但 
是 对 于 像 二 和 二 > 这样 的 关系 运算 符 来 说 ， 它 会 导致 非 直 观 的 结果 。 图 2-19 展示 了 一 些 关 
系 表 达 式 的 示例 以 及 它们 得 到 的 求 值 结果 ， 这 里 假设 数据 类 型 int 表示 为 32 位 补 码 。 考 
虑 比较 式 - 1<0U。 因 为 第 二 个 运算 数 是 无 符号 的 ， 第 一 个 运算 数 就 会 被 隐 式 地 转换 为 无 符 
号 数 ， 因 此 表达 式 就 等 价 于 4294967295U<0U( 回 想 T2U,.( 一 1)= 二 UMax。)， 这 个 答案 显然 
是 错 的。 其 他 那些 示例 也 可 以 通过 相似 的 分 析 来 理解 。 












2147483647 -2147483647-1 
2147483647U -2147483647-1 
2147483647 (int) 2147483648U 
= 二 5 





(unsigned) -1 


图 2-19 C 语 言 的 升级 规则 的 效果 
注 ， 非 直 观 的 情况 标注 了 “* ，。 当 一 个 运算 数 是 无 符号 的 时 候 ， 另 一 个 运算 数 也 被 隐 式 强制 转换 为 无 符号 。 
将 TMinsz 写 为 -2147483647-1 的 原因 请 参见 网 络 旁 注 DATA:TMIN。 


ES 练习 题 2.21 假设 在 采用 补 码 运算 的 32 位 机 器 上 对 这 些 表 达 式 求 值 ， 按 照 图 2-19 的 
格式 填写 下 表 ， 描 述 强制 类 型 转换 和 关系 运算 的 结果 。 

表 达 式 

-2147483647-1 == 2147483648U 


-2147483647-1 < 2147483647 
-2147483647-1U < 2147483647 


-2147483647-1 < -2147483647 
-2147483647-1U < -2147483647 


MN 几 C 语言 中 TMin 的 写法 

在 图 2-19 和 练习 题 2. 21 中 ， 我 们 很 小 心地 将 TIMinss 写 成 -2147483647-1。 为 什么 
不 简单 地 写成 -2147483648 或 者 0x80000000? 看 一 下 C 头 文 件 1imits.h， 注 意 到 它们 
使 用 了 跟 我 们 写 TMinss 和 TMazxsz 类 似 的 方法 : 


./* Minimum and maximum values a ‘signed int' can hold. */ 
 #define INT_MAX 2147483647 
#define INT_MIN (INIENMAX — "1 


不 让 的 是 ， 补 码 表示 的 不 对 称 性 和 C 语言 的 转换 规则 之 间 奇 怪 的 交互 ， 迫 使 我 们 用 












































这 种 不 寻常 的 方式 来 写 TMirsas 。 虽 然 理 解 这 个 问题 需要 我 们 钻研 C 语言 标准 的 一 些 比 
较 隐 了 睡 的 角落 ， 但 是 它 能 够 帮助 我 们 充分 领会 整数 数据 类 型 和 表示 的 一 些 细微 之 处 。 


2.2.6 扩展 一 个 数字 的 位 表示 


一 个 常见 的 运算 是 在 不 同 字 长 的 整数 之 间 转 换 ， 同 时 又 保持 数值 不 变 。 当 然 ， 当 目标 
数据 类 型 太 小 以 至 于 不 能 表示 想 要 的 值 时 ， 这 根本 就 是 不 可 能 的 。 然 而 ， 从 一 个 较 小 的 数 
据 类 型 转换 到 一 个 较 大 的 类 型 ， 应 该 总 是 可 能 芯 

要 将 一 个 无 符号 数 转 换 为 一 个 更 大 的 数据 类 型 ， 我 们 只 要 简单 地 在 表示 的 开头 添加 0。 
这 种 运算 被 称 为 零 扩 展 (zero extension) ， 表 示 原 理 如 下 : 

原理 : 无 符号 数 的 零 扩 展 

定义 宽度 为 叫 的 位 向 量 妈 二 [uw_1，Uuw_s，*…，tUo] 和 宽度 为 w' 的 位 向 量 二 [0，…， 
0，ww-1， Uw-z，""，UWoj]， 其 中 ww 之 w。 则 B2U, (ww) 二 B2U (z')。 

按照 公式 (2. 1)， 该 原理 可 以 看 作 是 直接 遵循 了 无 符号 数 编码 的 定义 。 

要 将 一 个 补 码 数 字 转 换 为 一 个 更 大 的 数据 类 型 ， 可 以 执行 一 个 符号 扩展 (sign exten- 
sion)， 在 表示 中 添加 最 高 有 效 位 的 值 ， 表 示 为 如 下 原理 。 我 们 用 蓝 色 标 出 符号 位 x.,_! 来 
突出 它 在 符号 扩展 中 的 角色 。 

原理 : 补 码 数 的 符号 扩展 

定义 宽度 为 也 的 位 向 量 节 一 [ze 19 au-2， ”9 Zo 和 宽度 为 包 的 位 向 量 元 一 [zi， us 


Dui i wa ey ys wv MM BET (2 =B2 人 TR, 
例如 ， 考 虑 下 面 的 代码 : 
1 Short sx = -12345; /* -12345 */ 
2 unsigned short usx = sx; /* 53191 */ 
3 int x = sx; /* -12345 */ 
4 unsigned ux = usx; /* 53191 */ 
5 
6 printf("sx = %d:\t", sx); 
7 show_bytes((byte_pointer) &sx, sizeof (short)); 
8 printf ("usx = %u:\t", usx); 
3 show_bytes((byte_pointer) &usx, sizeof (unsigned short)); 
10 printf("x = %d:\t", x); | 


11 show_bytes((byte_pointer) &x, sizeof (int)); 
讽 printf("ux = %u:\t", ux); 
13 show_bytes((byte_pointer) &ux, sizeof (unsigned)); 


在 采用 补 码 表示 的 32 位 大 端 法 机 器 上 运行 这 段 代 码 时 ， 打 印 出 如 下 输出 : 


SX = -12345: cf c7 
usx = 53191 : cf C7 
x = -12345: ff ff cf c7 
ux = 53191: 00 00 cf c7 


我 们 看 到 ， 尽 管 一 12 345 的 补 码 表示 和 53 191 的 无 符号 表示 在 16 位 字 长 时 是 相同 的 ， 但 是 
在 32 位 字 长 时 却 是 不 同 的 。 特 别 地 ， 一 12 345 的 十 六 进 制 表示 为 0xFFFFCFC7， 而 53 191 的 十 
六 进 制 表示 为 0x0000CFC7。 前 者 使 用 的 是 符号 扩展 一 一 最 开头 加 了 16 位 ， 都 是 最 高 有 效 位 1， 
表示 为 十 六 进 制 就 是 0xFFFF。 后 者 开头 使 用 16 个 0 来 扩展 ， 表 示 为 十 六 进 制 就 是 0x0000。 

图 2-20 给 出 了 从 字 长 w=3 到 w= 二 4 的 符号 扩展 的 结果 。 位 向 量 [101] 表 示 值 一 4 十 1= 
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一 3。 对 它 应 用 符号 扩展 ， 得 到 位 向 量 [1101]， 表 示 的 值 一 8 十 4 十 1 二 一 3。 我 们 可 以 看 到 ， 
对 于 w=4， 最 高 两 位 的 组 合 值 是 一 8 十 4 一 一 4， 与 w= 二 3 时 符号 位 的 值 相同 。 类 似 地 ， 位 
向 量 L[111] 和 [11113 都 表示 值 一 1。 





-23= -8 
-22=-4 
2=1 转 


-8-7-6-5-4-=3-2-10 12345567 8 









[101] 


[111] 


[1111] A 


图 2-20 ”从 w=3 到 w=4 的 符号 扩展 示例 。 对 于 w= 二 4， 最 高 两 位 组 合 
权重 为 一 8 十 4 二 一 4， 与 w==3 时 的 符号 位 的 权重 一 样 
有 了 这 个 直觉 ， 我 们 现在 可 以 展示 保持 补 码 值 的 符号 扩展 。 
推导 : 补 码 数值 的 符号 扩展 
令 w' = 二 w 十 k&， 我 们 想 要 证 明 的 是 
BT el Lo yy = BT (Us sy ony] 
ey 


k 次 
下 面 的 证 明 是 对 进行 归纳 。 也 就 是 说 ， 如 果 我 们 能 够 证 明 符 号 扩展 一 位 保持 了 数值 
不 变 ， 那 么 符号 扩展 任意 位 都 能 保持 这 种 属性 。 因 此 ， 证 明 的 任务 就 变 为 了 : 
B2T,n (Oe 9 Tul 9 Tu-2 0]) 一 B22T: (le 9 Tu—2 yo |) 
用 等 式 (2. 3) 展 开 左 边 的 表达 式 ， 得 到 : 


B2T,n ([xw i 9Tu-l 9 Xu-2 ，""* ,To |) = 2 
i=0 


w—2 


= 2 十 工 。。l 2 十 Da 
i=0 


uw—2 


= 
i=0 


w—2 
=— Tw i 十 D2 
i=0 


= BT oC ym 2 |)) 
我 们 使 用 的 关键 属性 是 2* 一 2*!= 二 2*!。 因 此 ， 加 上 一 个 权 值 为 一 2* 的 位 ， 和 将 一 个 权 值 为 
一 2”"! 的 位 转换 为 一 个 权 值 为 2”! 的 位 ， 这 两 项 运算 的 综合 效果 就 会 保持 原始 的 数值 。 国 
ES 练习 题 2. 22 通过 应 用 等 式 (2.3)， 表 明 下 面 每 个 位 向 量 都 是 一 5 的 补 码 表示 。 
A. [1011] 
B. [11011] 








C. [111011] 

可 以 看 到 第 二 个 和 第 三 个 位 向 量 可 以 通过 对 第 一 个 位 向 量 做 符号 扩展 得 到 。 

值得 一 提 的 是 ， 从 一 个 数据 大 小 到 另 一 个 数据 大 小 的 转换 ， 以 及 无 符号 和 有 符号 数字 
之 间 的 转换 的 相对 顺序 能 够 影响 一 个 程序 的 行为 。 考 虑 下 面 的 代码 : 


Short sx = -12345; /* -12345 */ 
unsigned uy = sx; /* Mystery! */ 


printf("my = Xos\b", nny); 
show_bytes((byte_pointer) &uy, sizeof (unsigned)); 
在 一 台大 端 法 机 器 上 ， 这 部 分 代码 产生 如 下 输出 : 

uy = 4294954951: ff ff cf c7 

这 表明 当 把 short 转换 成 unsigned 时 ， 我 们 先 要 改变 大 小 ， 之 后 再 完成 从 有 符号 到 
无 符号 的 转换 。 也 就 是 说 (unsigned) sx 等 价 于 (unsigned) (int) sx， 求 值得 到 
4 294 954 951， 而 不 等 价 于 (unsigned) (unsigned short) sx， 后 者 求 值得 到 53 191。 事 
实 上 ， 这 个 规则 是 C 语言 标准 要 求 的 。 
区 所 | 练习 题 2.23 考虑 下 面 的 C 函数 : 


int funi(unsigned word) { 
return (int) ((word << 24) >> 24); 


mwN 一 





} 


int fun2(unsigned word) +{ 
return ((int) word << 24) >> 24; 
} 
假设 在 一 个 采用 补 码 运算 的 机 器 上 以 32 位 程序 来 执行 这 些 函 数 。 还 假设 有 符号 数值 
的 右 移 是 算术 右 移 ， 而 无 符号 数值 的 右 移 是 钠 辑 右 移 。 
A. 填写 下 表 ， 说 明 这 些 函 数 对 几 个 示例 参数 的 结果 。 你 会 发 现 用 十 六 进 制 表 示 来 做 
会 更 方便 ， 只 要 记 住 十 六 进 制 数字 8 到 下 的 最 高 有 效 位 等 于 1。 


W funl (w) fun2 (w) 
Ox00000076 
0x87654321 


0x000000C9 
B. 用 语言 来 描述 这 些 函 数 执 行 的 有 用 的 计算 。 























0xEDCBA987 








2.2.7 截断 数字 

假设 我 们 不 用 额外 的 位 来 扩展 一 个 数值 ， 而 是 减少 表示 一 个 数字 的 位 数 。 例 如 下 面 代 
码 中 这 种 情况 : 

1 int x = 53191; 


小 short sx = (short) x; /* -12345 */ 
3 int y = sx; /* -12345 */ 


当 我 们 把 x 强制 类 型 转换 为 short 时 ， 我 们 就 将 32 位 的 int 截断 为 了 16 位 的 short int。 
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就 像 前 面 所 看 到 的 ， 这 个 16 位 的 位 模式 就 是 一 12 345 的 补 码 表示 。 当 我 们 把 它 强制 类 型 
转换 回 int 时 ， 符 号 扩展 把 高 16 位 设置 为 1， 从 而 生成 一 12 345 的 32 位 补 码 表示 。 

当 将 一 个 多 位 的 数 式 二 [zs_1，x。-:，"…，zoj 截 断 为 一 个 位 数字 时 ， 我 们 会 丢弃 高 
w 一 k 位 ， 得 到 一 个 位 向 量 苹 二 [zi-1，Zzi-z，*…，zo]。 截 断 一 个 数字 可 能 会 改变 它 的 
值 一 一 溢出 的 一 种 形式 。 对 于 一 个 无 符号 数 ， 我 们 可 以 很 容易 得 出 其 数值 结果 。 

原理 : 截断 无 符号 数 

令 葡 等 于 位 向 量 [Xx,_1，ZXw_s，*…，Xo]， 而 工 是 将 其 截断 为 位 的 结果 : 工 一 [zi， 
Tez ，X0]。 令 X==B2U,(z), x 二 B2Ui(z')。 则 x' 二 x mod 2*。 

该 原理 背后 的 直觉 就 是 所 有 被 截 去 的 位 其 权重 形式 都 为 2， 其 中 ;之 &， 因 此 ， 每 一 个 
权 在 取 模 操作 下 结果 都 为 零 。 可 用 如 下 推导 表示 : 

推导 : 截断 无 符号 数 

通过 对 等 式 (2. 1) 应 用 取 模 运算 就 可 以 看 到 : 


BOUT (lay ony mod 2 = | Dzi2' |mod 2 
i=0 


= | Dx.2: |mod 2 
一 网 
= B2U([zei zea，…zo]) 
在 这 段 推导 中 ， 我 们 利用 了 属性 : 对 于 任何 ;之 &，2 mod 2 一 0。 国 

补 码 截断 也 具有 相似 的 属性 ， 只 不 过 要 将 最 高 位 转换 为 符号 位 : 

原理 : 截断 补 码 数值 

令 均 等 于 位 向 量 [z。i，zo rs，…，zo]， 而 元 是 将 其 截断 为 四 位 的 结果 : 式 一 [zi， 
Za，…，xzo]。 令 Z 一 B2U(Zz) ，z 一 B2T(Z)。 则 工 一 U2TCz mod 24)。 

在 这 个 公式 中 ，z mod 2* 将 是 0 到 2* 一 1 之 间 的 一 个 数 。 对 其 应 用 函数 U2T 产生 的 
效果 是 把 最 高 有 效 位 zt-: 的 权重 从 2 所 :转变 为 一 2 。 举 例 来 看 ， 将 数值 zx 三 53 191 从 
int 转换 为 short。 由 于 2 一 65 536 这 z， 我 们 有 x mod 2 一 xz。 但 是 ， 当 我 们 把 这 个 数 
转换 为 16 位 的 补 码 时 ， 我 们 得 到 z 一 53 191 一 65 536 一 一 12 345 。 

推导 : 截断 补 码 数值 

使 用 与 无 符号 数 截断 相同 的 参数 ， 则 有 

了 B2U.(Lz。yz。a ,To |)mod 2 = B2U, [xie sre zs yzo] 
也 就 是 ，z mod 2* 能 够 被 一 个 位 级 表示 为 [zt-1，Zzi-:，…，zoj] 的 无 符号 数 表示 。 将 其 转 


换 为 补 码 数 则 有 zx = 二 U2Ti (zx mod 2*)。 图 
总 而 言 之 ， 无 符号 数 的 截断 结果 是 : 
了 B2U [zyzea wzo] 一 B2U (CCz yz ,To |) mod 2 (2. 9) 
而 补 码 数字 的 截断 结果 是 : 


B2T,[zxii yzxes ss To | = U2T, CCB2U(Lz zyzo]) mod 2*) (2. 10) 
练习 题 2. 24 假设 将 一 个 4 位 数值 (用 十 六 进 制 数字 0~ 下 表示 ) 截 断 到 一 个 3 位 数值 
(用 十 六 进 制 数字 0~7 表示 )。 填 写 下 表 ， 根 据 那 些 位 模式 的 无 符号 和 补 码 解释 ， 说 

明 这 种 截断 对 某 些 情况 的 结果 。 
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解释 如 何 将 等 式 (2.9) 和 等 式 (2.10) 应 用 到 这 些 示 例 上 。 


2. 2.8 关于 有 符号 数 与 无 符号 数 的 建议 

就 像 我 们 看 到 的 那样 ， 有 符号 数 到 无 符号 数 的 隐 式 强制 类 型 转换 导致 了 某 些 非 直观 的 
行为 。 而 这 些 非 直 观 的 特性 经 常 导致 程序 错误 ， 并 且 这 种 包含 隐 式 强制 类 型 转换 的 细微 差 
别 的 错误 很 难 被 发 现 。 因 为 这 种 强制 类 型 转换 是 在 代码 中 没有 明确 指示 的 情况 下 发 生 的 ， 
程序 员 经 党 忽视 了 它 的 影响 。 

下 面 两 个 练习 题 说 明了 某 些 由 于 隐 式 强制 类 型 转换 和 无 符号 数据 类 型 造成 的 细微 的 错误 。 
攻 练习 题 2. 25 考虑 下 列 代码 ， 这 段 代 码 试图 计算 数组 a 中 所 有 元 素 的 和 ， 其 中 元 素 的 

数量 由 参数 length 给 出 。 


/* WARNING: This is buggy code */ 

float Sum_elements (float a[], unsigned length) { 
int i; 
float result = 0; 





for (i = 0; i <= length-1; i++) 
result += a[i]; 


1 
p24 
3 
4 
5 
6 
8 return result; 
9 


} 


当 参 数 length 等 于 0 时， 运行 这 段 代码 应 该 返回 0.0。 但 实际 上 ， 运 行 时 会 遇 
到 一 个 内 存 错误 。 请 解释 为 什么 会 发 生 这 样 的 情况 ， 并 且说 明 如 何 修改 代码 。 
臣 练 习题 2.26 现在 给 你 一 个 任务 ， 写 一 个 函数 用 来 判定 一 个 字符 串 是 否 比 另 一 个 更 
长 。 前 提 是 你 要 用 字符 串 库 函数 strlen， 它 的 声明 如 下 : 


/* Prototype for library function strlen */ 
size_t strlen(const char *s); 


最 开始 你 写 的 函数 是 这 样 的 : 


/* Determine whether string s is longer than String t */ 
/* WARNING: This function is buggy */ 
int strlonger(char *s, char *t) { 

return strlen(s) - strlen(t) > 0; 





} 
当 你 在 一 些 示例 数据 上 测试 这 个 函数 时 ， 一 切 似乎 都 是 正确 的 。 进 一 步 研究 发 现 
在 头 文件 stdio.h 中 数据 类 型 size 七 是 定义 成 unsigned int 的 。 
A. 在 什么 情况 下 ， 这 个 函数 会 产生 不 正确 的 结果 ? 
B. 解释 为 什么 会 出 现 这 样 不 正确 的 结果 。 
C. 说 明 如 何 修 改 这 段 代 码 好 让 它 能 可 靠 地 工作 。 





臣 要 函数 getpeername 的 安全 漏洞 
2002 年 ， 从 事 FreeBSD 开源 操作 系统 项 目的 程序 员 意 识 到 ， 他 们 对 getpeername 
函数 的 实现 存在 安全 漏洞 。 代 码 的 简化 版 本 如 下 : 


V/s 

2 * Illustration of code vulnerability similar to that found in 
3 * FreeBSD's implementation of getpeername() 

4 */ 

5 

6 /* Declaration of library function memcpy */ 

7 void *memcpy(void *dest, void *src, size_t n); 

8 

9 /* Kernel memory region holding user-accessible data */ 

10  #define KSIZE 1024 

11 char kbuf [KSIZE] ; 

12 

13 /* Copy at most maxlen bytes from kernel region to user buffer */ 
14 int copy_from_kernel(void *user_dest, int maxlen) { 

15 /* Byte count len is minimum of buffer size and maxlen */ 
16 int len = KSIZE < maxlen ?了 KSIZE : maxlen; 

17 memcpy (user_dest, kbuf, len); 

18 return len; 

I 


在 这 段 代码 里 ， 第 7 行 给 出 的 是 库 函 数 memcpy 的 原型 ， 这 个 函数 是 要 将 一 段 指定 
长 度 为 了 的 字 节 从 内 存 的 一 个 区 域 复 制 到 另 一 个 区 域 。 

从 第 14 行 开始 的 函数 copy_from kernel 是 要 将 一 些 操作 系统 内 核 维护 的 数据 复 
制 到 指定 的 用 户 可 以 访问 的 内 存 区 域 。 对 用 户 来 说 ， 大 多 数 内 核 维护 的 数据 结构 应 该 是 
不 可 读 的 ， 因 为 这 些 数 据 结构 可 能 包含 其 他 用 户 和 系统 上 运行 的 其 他 作业 的 敏感 信息 ， 
但 是 显示 为 kbuf 的 区 域 是 用 户 可 以 读 的 。 参 数 maxlen 给 出 的 是 分 配给 用 户 的 缓冲 区 
的 长 度 ， 这 个 缓冲 区 是 用 参数 user dest 指示 的 。 然 后 ， 第 16 行 的 计算 确保 复制 的 字 
节 数 据 不 会 超出 源 或 者 目标 缓冲 区 可 用 的 范围 。 

不 过 ， 假 设 有 些 怀 有 恶意 的 程序 员 在 调用 copy from _ kernel 的 代码 中 对 maxlen 
使 用 了 负数 值 ， 那 么 ， 第 16 行 的 最 小 值 计 算 会 把 这 个 值 赋 给 len， 然 后 len 会 作为 参 
数 n 被 传递 给 memcpPy。 不 过 ， 请 注意 参数 mn 是 被 声明 为 数据 类 型 size 七 的 。 这 个 数据 
类 型 是 在 库 文件 stdio.h 中 (通过 typedef) 被 声明 的 。 典 型 地 ， 对 32 位 程序 它 被 定义 
为 unsigned int， 对 64 位 程序 定义 为 unsigned Long。 既然 参数 是 无 符号 的 ， 那 么 
memcpy 会 把 它 当 作 一 个 非常 大 的 正 整 数 ， 并 且 试 图 将 这 样 多 字 节 的 数据 从 内 核 区 域 复 
制 到 用 户 的 缓冲 区 。 虽 然 复 制 这 么 多 字 节 (至 少 22 个) 实际 上 不 会 完成 ， 因 为 程序 会 遇 
到 进程 中 非法 地 址 的 错误 ， 但 是 程序 还 是 能 读 到 它 没 有 被 授权 的 内 核 内 存 区 域 。 

我 们 可 以 看 到 ， 这 个 问题 是 由 于 数据 类 型 的 不 匹配 造成 的 : 在 一 个 地 方 ， 长 度 参数 
是 有 符号 数 ; 而 另 一 个 地 方 ， 它 又 是 无 符号 数 。 正 如 这 个 例子 表明 的 那样 ， 这 样 的 不 匹 
配 会 成 为 缺陷 的 原因 ， 甚 至 会 导致 安全 漏洞 。 幸 运 的 是 ， 还 没有 案例 报告 有 程序 员 在 
FreeBSD 上 利用 了 这 个 漏洞 。 他 们 发 布 了 一 个 安全 建议 ，“FreeBSD-SA-02:38. signed- 
error”， 建 议 系统 管理 员 如 何 应 用 补丁 消除 这 个 漏洞 。 要 修正 这 个 缺陷 ， 只 要 将 copy_ 
from kernel 的 参数 maxlen 声明 为 类 型 size t， 也 就 是 与 memcpy 的 参数 mn 一 致 。 同 
时 ， 我 们 也 应 该 将 本 地 变量 len 和 返回 值 声 明 为 size 七 。 
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我 们 已 经 看 到 了 许多 无 符号 运算 的 细微 特性 ， 尤 其 是 有 符号 数 到 无 符号 数 的 隐 式 转 
换 ， 会 导致 错误 或 者 漏洞 的 方式 。 避 免 这 类 错误 的 一 种 方法 就 是 绝 不 使 用 无 符号 数 。 实 际 
上 ， 除 了 C 以 外 很 少 有 语言 支持 无 符号 整数 。 很 明显 ， 这 些 语言 的 设计 者 认为 它们 带 来 的 
麻烦 要 比 益 处 多 得 多 。 比 如 ，Java 只 支持 有 符号 整数 ， 并 且 要 求 以 补 码 运算 来 实现 。 正 常 
的 右 移 运算 符 >> 被 定义 为 执行 算术 右 移 。 特 殊 的 运算 符 >>> 被 指定 为 执行 逻辑 右 移 。 

当 我 们 想 要 把 字 仅 仅 看 做 是 位 的 集合 而 没有 任何 数字 意义 时 ， 无 符号 数值 是 非常 有 用 
的 。 例 如 ， 往 一 个 字 中 放 人 描述 各 种 布尔 条 件 的 标记 (flag) 时 ， 就 是 这 样 。 地 址 自然 地 就 
是 无 符号 的 ， 所 以 系统 程序 员 发 现 无 符号 类 型 是 很 有 帮助 的 。 当 实现 模 运 算 和 多 精度 运算 
的 数学 包 时 ， 数 字 是 由 字 的 数组 来 表示 的 ， 无 符号 值 也 会 非常 有 用 。 


2.3 整数 运算 


许多 刚 入 门 的 程序 员 非 常 惊 奇 地 发 现 ， 两 个 正 数 相 加 会 得 出 一 个 负数 ， 而 比较 表达 式 
x<y 和 比较 表达 式 x-y<0 会 产生 不 同 的 结果 。 这 些 属性 是 由 于 计算 机 运算 的 有 限 性 造成 的 。 
理解 计算 机 运算 的 细微 之 处 能 够 帮助 程序 员 编写 更 可 靠 的 代码 。 


2.3.1 无 符号 加 法 


考虑 两 个 非 负 整数 zx 和 y， 满 足 0<zx，y<2”。 每 个 数 都 能 表示 为 记 位 无 符号 数字 。 然 而 ， 
如 果 计 算 它 们 的 和 ， 我 们 就 有 一 个 可 能 的 范围 0<z 十 y<2”' 一 2。 表 示 这 个 和 可 能 需要 w 十 1 
位 。 例 如 ， 图 2-21 展示 了 当 z 和 >y 有 4 位 表示 时 ， 函 数 zx 十 y 的 坐标 图 。 参 数 (显示 在 水 平 轴 
上 ) 取 值 范围 为 0 一 15， 但 是 和 的 取 值 范围 为 0 一 30。 函 数 的 形状 是 一 个 有 坡度 的 平面 (在 两 个 维 
度 上 ， 函 数 都 是 线性 的 )。 如 果 保 持 和 为 一 个 ww 十 1 位 的 数字 ， 并 且 把 它 加 上 另外 一 个 数值 ， 我 
们 可 能 需要 ww 十 2 个 位 ， 以 此 类 推 。 这 种 持续 的 “ 字 长 膨胀 ”意味 着 ， 要 想 完 整地 表示 算术 运 
算 的 结果 ， 我 们 不 能 对 字 长 做 任何 限制 。 一 些 编程 语言 ， 例 如 Lisp， 实 际 上 就 支持 无 限 精度 的 
运算 ， 人 允许 任意 的 (当然 ， 要 在 机 器 的 内 存 限 制 之 内 ) 整 数 运算 。 更 常见 的 是 ， 编 程 语言 支持 固 
定 精 度 的 运算 ， 因 此 像 “ 加 法 ”和 “乘法 ”这 样 的 运算 不 同 于 它们 在 整数 上 的 相应 运算 。 





图 2-21 整数 加 法 。 对 于 一 个 4 位 的 字 长 ， 其 和 可 能 需要 5 位 
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让 我 们 为 参数 zx 和 y 定义 运算 十 &， 其 中 0 三 z+，y 二 2*， 该 操作 是 把 整数 和 z 十 y 截断 
为 w 位 得 到 的 结果 ， 再 把 这 个 结果 看 做 是 一 个 无 符号 数 。 这 可 以 被 视 为 一 种 形式 的 模 运 
算 ， 对 z 十 y 的 位 级 表示 ， 简 单 丢弃 任何 权重 大 于 2* :的 位 就 可 以 计算 出 和 模 2"。 比 如 ， 
考虑 一 个 4 位 数字 表示 ，zx= 二 9 和 y 王 12 的 位 表示 分 别 为 L1001] 和 [1100]。 它 们 的 和 是 21， 
5 位 的 表示 为 [L10101]。 但 是 如 果 丢 弃 最 高 位 ， 我 们 就 得 到 [0101]， 也 就 是 说 ,十 进 制 值 
的 5。 这 就 和 值 21 mod 16==5 一 致 。 

我 们 可 以 将 操作 十 描述 为 : 

原理 : 无 符号 数 加 法 

对 满足 0 过 T+，y 二 2* 的 x 和 有 : 


i Eee eR Ut 正常 
sy = 2.11) 
-eg 元 后 雪 冯 下 六 运 2 洲 册 
图 2-22 说 明了 公式 (2. 11) 的 这 两 种 情况 ， 左 边 的 和 x 十 xy 


y 映 射 到 右边 的 无 符号 多 位 的 和 xz 十 sy。 正 常情 况 下 z 十 y 2w+1 二 溢出 
的 值 保持 不 变 ， 而 溢出 情况 则 是 该 和 数 减 去 2* 的 结果 。 


xz 十 
推导 无 符号 数 加 法 2 
一 般 而 言 ， 我 们 可 以 看 到 ， 如 果 x 十 y 二 2”*"， 和 的 ww 十 
1 位 表示 中 的 最 高 位 会 等 于 0， 因此 丢弃 它 不 会 改变 这 个 数 0 一 正常 
值 。 另 一 方面 ， 如 果 2* 人 x 十 y<2* ， 和 的 w 十 1 位 表示 图 2-22 整数 加 法 和 无 符号 加 法 
中 的 最 高 位 会 等 于 1， 因 此 丢弃 它 就 相当 于 从 和 中 减 去 间 的 关系 。 当 zx 十 y 大 于 
了 2*。 和 2* 一 1 时 ， 其 和 溢出 - 


说 一 个 算术 运算 溢出 ， 是 指 完整 的 整数 结果 不 能 放 到 数据 类 型 的 字 长 限制 中 去 。 如 等 
式 (2. 11) 所 示 ， 当 两 个 运算 数 的 和 为 2* 或 者 更 大 时 ， 就 发 生 了 溢出 。 图 2-23 展示 了 字 长 
w 三 4 的 无 符号 加 法 函数 的 坐标 图 。 这 个 和 是 按 模 2 三 16 计算 的 。 当 zx 十 y=16 时 ， 没 有 
溢出 ， 并 且 z 十 ;7 就 是 zx 十 y。 这 对 应 于 图 中 标记 为 “正常 ”的 斜面 。 当 z 十 y 之 16 时 ， 加 
法 溢出 ， 结 果 相 当 于 从 和 中 减 去 16。 这 对 应 于 图 中 标记 为 “溢出 ”的 斜面 。 
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图 2-23 ”无 符号 加 法 (4 位 字 长 ， 加 法 是 模 16 的 ) 
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当 执 行 C 程序 时 ， 不 会 将 溢出 作为 错误 而 发 信号 。 不 过 有 的 时 候 ， 我们 可 能 希望 判定 
是 否 发 生 了 洲 出 。 

原理 : 检测 无 符号 数 加 法 中 的 溢出 

对 在 范围 0 要 z，ySUMaz。 中 的 x 和 y， 令 s 二 x 十 %y。 则 对 计算 s， 当 且 仅 当 < 
(或 者 等 价 地 s 二 y) 时 ,发 生 了 溢出 。 

作为 说 明 ， 在 前 面 的 示例 中 ， 我们 看 到 9 十 :12 二 5。 由 于 5<9， 我 们 可 以 看 出 发 生 了 

推导 : 检测 无 符号 数 加 法 中 的 溢出 

通过 观察 发 现 x 十 y 宇 rz， 因此 如 果 ; 没有 洲 出 ， 我 们 能 够 肯定 ; 宇 z<。 另 一 方面 ， 如 果 
5 确实 溢出 了 ， 我 们 就 有 s 二 zx 十 y 一 2”。 假 设 y 二 2*， 我 们 就 有 y 一 2* 二 0， 因 此 一 z 十 
(9 一 DJ 图 
练习 题 2.27 写 出 一 个 具有 如 下 原型 的 函数 : 


/* Determine whether arguments can be added without overflow */ 
int uadd_ok(unsigned x, unsigned y); 


如 果 参 数 x 和 y 相 加 不 会 产生 溢出 ， 这 个 函数 就 返回 1。 

模 数 加 法 形成 了 一 种 数学 结构 ， 称 为 阿 贝 尔 群 (Abelian group)， 这 是 以 丹麦 数学 家 
Niels Henrik Abel(1802 一 1829) 的 名 字 命 名 。 也 就 说 ， 它 是 可 交换 的 (这 就 是 为 什么 叫 
“abelian” 的 地 方 ) 和 可 结合 的 。 它 有 一 个 单位 元 0， 并 且 每 个 元 素 有 一 个 加 法 逆 元 。 让 我 
们 考虑 w 位 的 无 符号 数 的 集合 ， 执 行 加 法 运算 十 &。 对 于 每 个 值 zx， 必 然 有 某 个 值 一 xz 满 
足 一 sz 十 sz 二 0。 该 加 法 的 逆 操 作 可 以 表述 如 下 : 

原理 : 无 符号 数 求 反 

对 满足 0 楼 z<2” 的 任意 工 ， 其 包 位 的 无 符号 逆 元 一 4 由 下 式 给 出 

Ey 并 一 0 
一 wwZ 一 (2. 12) 
2 0 

该 结果 可 以 很 容易 地 通过 案例 分 析 推 导出 来 : 

推导 : 无 符号 数 求 反 

当 x==0 时 ， 加 法 逆 元 显然 是 0。 对 于 z>0， 考 虑 值 2* 一 x。 我 们 观察 到 这 个 数字 在 
0 二 2* 一 xz 二 2* 范围 之 内 ， 并 且 (z 十 2" 一 z) mod 2" 一 2” mod 2" 一 0。 因 此 ， 它 就 是 zx 在 
十 下 的 逆 元 。 国 
ES 练习 题 2. 28 我 们 能 用 一 个 十 六 进 制 数字 来 表示 长 度 w= 二 4 的 位 模式 。 对 于 这 些 数字 

的 无 符号 解释 ， 使 用 等 式 (2. 12) 填 写 下 表 ， 给 出 所 示 数 字 的 无 符号 加 法 逆 元 的 位 表示 

(用 十 六 进 制 形式 )。 





一 4 





2.3.2 补 码 加 法 
对 于 补 码 加 法 ， 我 们 必须 确定 当 结 果 太 大 (为 正 ) 或 者 太 小 (为 负 ) 时 ， 应 该 做 些 什么 。 
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给 定 在 范围 一 2”! 之 z+，y 志 2*! 一 1 之 内 的 整数 值 x 和 y， 它 们 的 和 就 在 范围 一 2* 志 x 十 
y<2* 一 2 之 内 ， 要 想 准 确 表 示 ， 可 能 需要 ww 十 1 位 。 就 像 以 前 一 样 ， 我 们 通过 将 表示 截断 
到 位， 来 避免 数据 大 小 的 不 断 扩张 。 然 而 ， 结 果 却 不 像 模 数 加 法 那样 在 数学 上 感觉 很 熟 
悉 。 定义 z 十 5y 为 整数 和 z 十 y 被 截断 为 ww 位 的 结果 ， 并 将 这 个 结果 看 做 是 补 码 数 。 
原理 : 补 码 加 法 
对 满足 一 2”! 之 Zz，y 坏 2”! 一 1 的 整数 工 和 y， 有 : 
元 十 也 一 2 27 六 区 和 古 汶 正 溢出 
ty 一 多 和 Y 填 过 2 正 种 C18) 
ZX 十 y 十 2”*， Zz 十 y 过 一 2 
图 2-24 说 明了 这 个 原理 ， 其 中 ， 左 边 的 和 zx 十 y 
的 取 值 范围 为 一 2* 志 x 十 y 志 2* 一 2， 右 边 显示 的 是 该 0 
和 数 截断 为 w 位 补 码 的 结果 。( 图 中 的 标号 “情况 1” 情况 4 
到 “情况 4” 用 于 该 原理 形式 化 推导 的 案例 分 析 中 。) 42wr1 
当 和 xz 十 y 超过 TMax 时 (情况 4) ， 我 们 说 发 生 了 正 溢 。 请 吕 3 
出 。 在 这 种 情况 下 ， 截 断 的 结果 是 从 和 数 中 减 去 2*。 
当 和 z 十 y 小 于 TMin, 时 (情况 1)， 我 们 说 发 生 了 负 溢 
出 。 在 这 种 情况 下 ， 截 断 的 结果 是 把 和 数 加 上 2*。 
两 个 数 的 多 位 补 码 之 和 与 无 符号 之 和 有 完全 相同 
的 位 级 表示 。 实 际 上 ， 大 多 数 计算 机 使 用 同样 的 机 器 ”情况 1 RE 
指令 来 执行 无 符号 或 者 有 符号 加 法 。 _2* 上 负 洲 出 








推导 : 补 码 加 法 图 2-24 整数 和 补 码 加 法 之 间 的 关系 。 

既然 补 码 加 法 与 无 符号 数 加 法 有 相同 的 位 级 表示 ， 当 z 十 y 小 于 一 2*-: 时 ， 产 生 
我 们 就 可 以 按 如 下 步骤 表示 运算 十 5: 将 其 参数 转换 为 无 负 溢出 。 当 它 大 于 2 一 时 ， 产 
符号 数 ， 执 行 无 符号 数 加 法 ， 再 将 结果 转换 为 补 码 : 生 正 溢出 

wy UT T2020 (yy)) (2. 14) 


根据 等 式 (2. 6) ， 我 们 可 以 把 T2U, (zx) 写成 x。_12* 十 Tz， 把 T2U,(y) 写 成 y,_12* 十 y。 

使 用 属性 ， 即 十 是 模 2* 的 加 法 ， 以 及 模 数 加 法 的 属性 ， 我 们 就 能 得 到 : 
r+,y = U2T,(T2U, (zx) +,T2U.,(y)) 
= U2T,[ (zw, 12* 十 ZX 十 yi12* 十 y) mod 2”] 
= U2T,[ (z+ y) mod 2”] 
消除 了 x-_12” 和 ys。-12” 这 两 项 ， 因 为 它们 模 2* 等 于 0。 

为 了 更 好 地 理解 这 个 数量 ， 定 义 z 为 整数 和 xz 二 x 十 y，z' 为 z' 二 zx mod 2*， 而 x 为 
zz 二 U2T,(z')。 数 值 等 于 z 十 xy 。 我 们 分 成 4 种 情况 分 析 ， 如 图 2-24 所 示 。 

1) 一 2* 之 z 二 一 2*!。 然 后 ， 我 们 会 有 z =>z 十 2"。 这 就 得 出 0 委 z 二 一 2 汪 : 十 2 一 
2”: 。 检 查 等 式 (2.7)， 我 们 看 到 > 在 满足 之 一 z 的 范围 之 内 。 这 种 情况 称 为 负 溢出 Cnega- 
tive overflow) 。 我 们 将 两 个 负数 x 和 y 相 加 (这 是 我 们 能 得 到 z 二 一 2 :的 唯一 方式 )， 得 
到 一 个 非 负 的 结果 x = 二 zx 十 y 十 2”。 

2) 一 2*!1 之 z 二 0。 那 么 ， 我们 又 将 有 zx' = 二 xz 十 2*， 得 到 一 2*! 十 2* 二 2*!1<z' 之 2*。 
检查 等 式 (2. 7)， 我 们 看 到 z' 在 满足 z= 二 zx 一 2* 的 范围 之 内 ， 因 此 z= 二 z 一 2 一 2 十 2” 
2* 一 z。 也 就 是 说 ， 我 们 的 补 码 和 z 等 于 整数 和 z 十 y。 

3) 0 委 z<2“: 。 那 么 ， 我 们 将 有 z = 二 2， 得 到 0 过 z' 二 2”!， 因 此 z= 二 zx 一 >*。 补 码 和 
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z 又 等 于 整数 和 工 十 y。 

4) 2* 1! 之 z 二 2*。 我 们 又 将 有 x = 二 z， 得 到 2”! 二 zx' 过 2*。 但 是 在 这 个 范围 内 ,我 们 有 
z' 二 z' 一 2”*， 得 到 x = 二 x 十 y 一 2”*。 这 种 情况 称 为 正 溢出 (positive overflow)。 我 们 将 正 数 x 
和 yy 相 加 (这 是 我 们 能 得 到 z 宇 2*! 的 唯一 方式 )， 得 到 一 个 负数 结果 xz 二 zx 十 y 一 2*。 国 

图 2-25 展示 了 一 些 4 位 补 码 加 法 的 示例 作为 说 明 。 每 个 示例 的 情况 都 被 标号 为 对 应 
于 等 式 (2. 13) 的 推导 过 程 中 的 情况 。 注 意 24 王 16， 因 此 负 溢 出 得 到 的 结果 比 整数 和 大 16， 
而 正 溢出 得 到 的 结果 比 之 小 16。 我 们 包括 了 运算 数 和 结果 的 位 级 表示 。 可 以 观察 到 ， 能 够 
通过 对 运算 数 执行 二 进 制 加 法 并 将 结果 截断 到 4 位 ， 从 而 得 到 结果 。 


一 8 三 3 
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图 2-25 补 码 加 法 示例 。 通 过 执行 运算 数 的 二 进 制 加 法 并 将 结果 截断 到 4 位 ， 
可 以 获得 4 位 补 码 和 的 位 级 表示 


图 2-26 阐述 了 字 长 这 =4 的 补 码 加 法 。 运 算数 的 范围 为 一 8 一 7 之 间 。 当 zx 十 y 二 一 8 
时 ， 补 码 加 法 就 会 负 溢出 ， 导 致 和 增加 了 16。 当 一 8 委 z 十 > 和 8 时 ， 加 法 就 产生 x 十 y。 当 
Z 十 y 亏 8， 加 法 就 会 正 溢出 ， 使 得 和 减少 了 16。 这 三 种 情况 中 的 每 一 种 都 形成 了 图 中 的 一 
个 斜面 。 


WE 


v CA 
MN 


pa 
> > 
> 





图 2-26” 补 码 加 法 ( 字 长 为 4 位 的 情况 下 ， 当 x 十 y 二 一 8 时 ， 
产生 负 溢 出 ; x 十 y 之 8 时 ， 产 生 正 溢出 ) 
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等 式 (2. 13) 也 让 我 们 认 出 了 哪些 情况 下 会 发 生 溢出 : 

原理 : 检测 补 码 加 法 中 的 溢出 

对 满足 TMinw 夺 +，y 夺 TMazw 的 工 和 y， 令 := 工 二 sy。 当 且 仅 当 Z 盖 0，y>0， 但 
5S<0 时 ， 计 算 发 生 了 正 溢出 。 当 且 仅 当 x 二 0，y 过 0, 但 s 宇 0 时 ,计算 s 发 生 了 负 溢 出 。 

图 2-25 显示 了 当 w= 二 4 时 ， 这 个 原理 的 例子 。 第 一 个 条 目 是 负 溢 出 的 情况 ， 两 个 负数 
相 加 得 到 一 个 正 数 。 最 后 一 个 条 目 是 正 溢出 的 情况 ， 两 个 正 数 相 加 得 到 一 个 负数 。 

推导 : 检测 补 码 加 法 中 的 溢出 

让 我 们 先 来 分 析 正 溢出 。 如 果 z 六 0，y>0， 而 :5 委 0， 那 么 显然 发 生 了 正 溢 出 。 反 过 
来 ， 正 溢出 的 条 件 为 : 1)z 盖 0，y>0( 或 者 zx 十 y<TMazr。)，2)5s 委 0( 见 公式 (2.13))。 同 
样 的 讨论 也 适用 于 负 滋 出 情况 。 国 
练习 题 2. 29 按照 图 2-25 的 形式 填写 下 表 。 分 别 列 出 5 位 参数 的 整数 值 、 整 数 和 与 

补 码 和 的 数值 、 补 码 和 的 位 级 表示 ， 以 及 属于 等 式 (2.13) 推 导 中 的 哪 种 情况 。 


[10100] [10001] 
[11000] [11000] 





[10111] [01000] 
[00010] [00101] 
[01100] [00100] 











妆 要 练习 题 2. 30 写 出 一 个 具有 如 下 原型 的 函数 : 
/* Determine whether arguments can be added without overflow */ 
int tadd_ok(int x, int y); 
如 果 参 数 x 和 y 相 加 不 会 产生 溢出 ， 这 个 函数 就 返回 1。 
计 要 练习 题 2.31 你 的 同事 对 你 补 码 加 法 溢出 条 件 的 分 析 有 些 不 耐烦 了 ， 他 给 出 了 一 个 
函数 tadd_ok 的 实现 ， 如 下 所 示 : 
/* Determine whether arguments can be added without overflow */ 
/* WARNING: This code is buggy. */ 
int tadd_ok(int x, int y) { 
int Sum = x+y; 
return (sum-x == y) && (sum-y == X) ; 
} 
你 看 了 代码 以 后 笑 了 。 和 解释 一 下 为 什么 。 
人 练习 题 2. 32 你 现在 有 个 任务 ， 编 写 函 数 tsub_ok 的 代码 ， 函 数 的 参数 是 x 和 y， 如 
果 计 算 x-y 不 产生 洲 出 ， 函 数 就 返回 1。 假设 你 写 的 练习 题 2. 30 的 代码 如 下 所 示 : 
/* Determine whether arguments can be subtracted without overflow */ 


/* WARNING: This code is buggy. */ 
int tsub_ok(int x, int y) +{ 


return tadd_ok(x, -y); 


x 和 y 取 什么 值 时 ， 这 个 函数 会 产生 错误 的 结果 ? 写 一 个 该 函数 的 正确 版 本 (家 
庭 作 业 2.74)。 
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2.3.3 补 码 的 非 


可 以 看 到 范围 在 TMin, 二 x+ 二 TMazx 中 的 每 个 数字 xz 都 有 十 5 下 的 加 法 逆 元 ， 我 们 将 
一 xz 表示 如 下 。 
原理 : 补 码 的 非 
对 满足 TMim 和 z 委 TMarzru 的 工 ， 其 补 码 的 非 一 5z 由 下 式 给 出 
TMin,, z= TMin, 
一 ux 一 3 (2 15) 
一 T= TVin, 
也 就 是 说 ， 对 多 位 的 补 码 加 法 来 说 ，TMin, 是 自己 的 加 法 的 逆 ， 而 对 其 他 任何 数值 
Zz 都 有 一 zx 作为 其 加 法 的 逆 。 
推导 : 补 码 的 非 
观察 发 现 TMim 十 TMin, = 二 一 2*! 十 (一 2*1) 二 一 2*。 这 将 导致 负 洲 出 ， 因 此 
TMin, 十 ,TMin, 二 一 2* 十 2* 二 0。 对 满足 zx 这 TMin, 的 x， 数 值 一 x 可 以 表示 为 一 个 多 位 
的 补 码 ， 它 们 的 和 一 z 十 z 一 0。 图 
医 扣 练习 题 2.33 ”我们 可 以 用 一 个 十 六 进 制 数字 来 表示 长 度 w= 二 4 的 位 模式 。 根 据 这 些 数 
字 的 补 码 的 解释 ， 填 写 下 表 ， 确 定 所 示 数 字 的 加 法 逆 元 。 . 








对 于 补 码 和 无 符号 (练习 题 2.28) 非 (negation) 产 生 的 位 模式 ， 你 观察 到 什么 ? 


计算 一 个 位 级 表示 的 值 的 补 码 非 有 几 种 聪明 的 方法 。 这 些 技术 很 有 用 (例如 当 你 在 
调试 程序 的 时 候 遇 到 值 0xfffffffa)， 同 时 它们 也 能 够 让 你 更 了 解 补 码 表示 的 本 质 。 

执行 位 级 补 码 非 的 第 一 种 方法 是 对 每 一 位 求 补 ， 再 对 结果 加 1。 在 C 语 言 中 ， 我们 
可 以 说 ， 对 于 任意 整数 值 x， 计 算 表 达 式 -x 和 ~x+l 得 到 的 结果 完全 一 样 。 

下 面 是 一 些 示 例 ， 字 长 为 4: 


[0101] [1010] -6 
[0111] [1000] -8 


[1100] -4 | [0011] 3 
[0000] on in 
[1000] -8 | [0111] 7 





从 前 面 的 例子 我 们 知道 0xf 的 补 是 0x0， 而 0xa 的 补 是 0x5， 因 而 0xfffffffa 是 
一 6 的 补 码 表示 。 

计算 一 个 数 工 的 补 码 非 的 第 二 种 方法 是 建立 在 将 位 向 量 分 为 两 部 分 的 基础 之 上 的 。 假 设 
有 是 最 右边 的 1 的 位 置 ， 因 而 工 的 位 级 表示 形 如 [zol ，zuo ao，…，mri，1，0，…，0]。 
(只 要 z 尖 0 就 能 够 找到 这 样 的 &。) 这 个 值 的 非 写 成 二 进 制 格 式 就 是 [一 zol1， 一 To -zs，…， 
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~~ZTht1，1，0，…，0]。 也 就 是 ， 我 们 对 位 左边 的 所 有 位 取 反 。 
我 们 用 一 些 4 位 数字 来 说 明 这 个 方法 ， 这 里 我 们 用 斜体 来 突出 最 右边 的 模式 ]，0，…*，0: 


[1100] -4 | [ozo0] 4 
[1000] -8 | [1000] -8 
[0107] S| dO 5 
[0117] 7 T1007 7 







2.3.4 无 符号 乘法 

范围 在 0 委 z，y 委 2 一 1 内 的 整数 xz 和 yy 可 以 被 表示 为 w 位 的 无 符号 数 ， 但 是 它们 的 
乘积 zx，y 的 取 值 范围 为 0 到 (2* 一 1)’ 二 2* 一 2*+! 十 1 之 间 。 这 可 能 需要 2w 位 来 表示 。 不 
过 , C 语言 中 的 无 符号 乘法 被 定义 为 产生 w 位 的 值 ， 就 是 2w 位 的 整数 乘积 的 低 w 位 表示 
的 值 。 我 们 将 这 个 值 表示 为 x x &y。 

将 一 个 无 符号 数 截断 为 w 位 等 价 于 计算 该 值 模 2*， 得 到 : 

原理 : 无 符号 数 乘 法 

对 满足 0 过 Z，y 生 UMaz 的 TX 和 yy 有 : 

XTXxuy = (rT. ymod 2 (2. 16) 


2.3.5 补 码 乘法 

范围 在 一 2 委 z，y 委 2 一 1 内 的 整数 + 和 yy 可 以 被 表示 为 w 位 的 补 码 数字 ， 但 是 
它们 的 乘积 z，y 的 取 值 范围 为 一 2* 1。 (2 一 1) 一 一 2 2 十 2%1 到 一 2 1。 一 2 一 
一 2 “之 间 。 要 想 用 补 码 来 表示 这 个 乘积 ， 可 能 需要 2w 位 。 然 而 ，C 语言 中 的 有 符号 乘 
法 是 通过 将 2w 位 的 乘积 截断 为 w 位 来 实现 的 。 我 们 将 这 个 数值 表示 为 zx x i,y。 将 一 个 补 
码 数 截断 为 w 位 相当 于 先 计算 该 值 模 2*， 再 把 无 符号 数 转换 为 补 码 ， 得 到 : 

原理 : 补 码 乘 法 

“对 满足 TMins 志 T+，y 世 TMazw 的 Xx 和 有 : 

Xxxw%y = U2T,((xz*» y)mod 2”) (2 17 

我 们 认为 对 于 无 符号 和 补 码 乘法 来 说 ， 乘 法 运算 的 位 级 表示 都 是 一 样 的 ， 并 用 如 下 原 
理 说 明 : 

原理 : 无 符号 和 补 码 乘 法 的 位 级 等 价 性 

给 定 长 度 为 w 的 位 向 量 工 和 yy， 用 补 码 形式 的 位 向 量 表示 来 定义 整数 工 和 y: 工 一 
B2Tu(Zz)，?y 一 B2Tu(y)。 用 无 符号 形式 的 位 向 量 表示 来 定义 非 负 整数 z 和 多: z 一 
B2Uu(z)，y =B2U,(y)。 则 

T2B, (xz x %y) = U2B, (x' x by') 

作为 说 明 ， 图 2-27 给 出 了 不 同 3 位 数字 的 乘法 结果 。 对 于 每 一 对 位 级 运算 数 ， 我 们 
执行 无 符号 和 补 码 乘法 ， 得 到 6 位 的 乘积 ， 然 后 再 把 这 些 乘积 截断 到 3 位 。 无 符号 的 截断 
后 的 乘积 总 是 等 于 x。y mod 8。 虽 然 无 符号 和 补 码 两 种 乘法 乘积 的 6 位 表示 不 同 ， 但 是 截 
断后 的 乘积 的 位 级 表示 都 相同 。 

推导 : 无 符号 和 补 码 乘法 的 位 级 等 价 性 

根据 等 式 (2. 6) ， 我 们 有 z = 王 z 十 zu-:2” 和 > 一 ?十 ye-:2"。 计 算 这 些 值 的 乘积 模 2* 
得 到 以 下 结果 : 

(zx’'» ymod 2 一 [(z 十 zol2”)。(y 十 yi2")]mod 2* 
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= Ly (peay | ea) vay 2” jmod 2 
= (Z。y) mod 2” 


(2. 18) 


由 于 模 运 算 符 ， 所 有 带 有 权重 2* 和 2* 的 项 都 丢掉 了 。 根 据 等 式 (2. 17) ， 我 们 有 工 x yy 一 
U2T.(Cz。y) mod 2")。 对 等 式 两 边 应 用 操作 T2U,, 有 : 
了 UP = T2U AU2T (kx yy) mod 2™")) = (rw y) mod 2 
将 上 述 结果 与 式 (2.16) 和 式 (2.18) 结 合 起 来 得 到 T2U, (x x%y)= 二 (x'，y') mod 2*= 
ZX' xk&y 。 然 后 对 这 个 等 式 的 两 边 应 用 U2B,， 得 到 
U2B..(T2U(zxky)) = T2B, (x x¥ ly) = U2B, (x' xywy ) 国 


15 
一 9 
8 





图 2-27 3 位 无 符号 和 补 码 乘法 示例 。 虽 然 完 整 的 乘积 的 位 级 表示 可 能 会 不 同 ， 
但 是 截断 后 乘积 的 位 级 表示 是 相同 的 


加 练习 题 2.34 按照 图 2-27 的 风格 填写 下 表 ， 说 明 不 同 的 3 位 数字 乘法 的 结果 。 











| 练习 题 2. 35 给 你 一 个 任务 ， 开 发 函数 tmult_ok 的 代码 ， 该 函数 会 判断 两 个 参数 相 
乘 是 否 会 产生 溢出 。 下 面 是 你 的 解决 方案 : 
/* Determine whether arguments can be multiplied without overflow */ 
int tmult_ok(int x, int y) { 
int p = x*y; 
/* Either x is zero, or dividing p by x gives y */ 
return !X || p/x == y; 


你 用 工 和 y 的 很 多 值 来 测试 这 段 代码 ， 似 乎 都 工作 正常 。 你 的 同事 挑战 你 ， 说 ; 
“如 果 我 不 能 用 减法 来 检验 加 法 是 否 溢出 (参见 练习 题 2.31)， 那 么 你 怎么 能 用 除法 来 
检验 乘法 是 否 溢出 呢 ?2? 

按照 下 面 的 思路 ， 用 数学 推导 来 证 明 你 的 方法 是 对 的 。 首 先 ， 证 明 x 二 0 的 情况 
是 正确 的 。 另 外 ， 考 虑 tw 位 数字 zx(zr 隆 0)、y、p 和 gq， 这 里 p 是 x 和 补 码 乘法 的 
结果 ,而 gq 是 pp 除 以 x 的 结果 。 

1) 说 明 工 和 y 的 整数 乘积 Tz。y， 可 以 写成 这 样 的 形式 : zx， yy 一 p 十 t2*， 其 中 ， 
t 关 0 当 且 仅 当 pp 的 计算 漆 出 。 
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2) 说 明 可 以 写成 这 样 的 形式 : p 二 xz，g 十 r， 其 中 |r| 二 |z|。 
3) 说 明 g 一 > 当 且 仅 当 7 一 上 0。 
练习 题 2. 36 ”对 于 数据 类 型 int 为 32 位 的 情况 ,设计 一 个 版 本 的 tmult_ok 函数 ( 练 
习题 2. 35) ， 使 用 64 位 精度 的 数据 类 型 int64 七 ， 而 不 使 用 除法 。 


2002 年 ， 人 们 发 现 Sun Microsystems 公司 提供 的 实现 XDR 库 的 代码 有 安全 漏洞 ， 
XDR 库 是 一 个 广泛 使 用 的 、 程 序 间 共享 数据 结构 的 工具 ， 造 成 这 个 安全 漏洞 的 原因 是 
程序 会 在 毫 无 察觉 的 情况 下 产生 乘法 溢出 。 

包含 安全 漏洞 的 代码 与 下 面 所 示 类 似 : 


1 /* Illustration of code Vulnerability similar to that found in 
2 * Sun's XDR library. 
3 */ 
4 void* copy_elements(void *ele_src[], int ele_cnt, size_t ele_size) { 
5 /* 
6 * Allocate buffer for ele_cnt objects, each of ele_size bytes 
7 * and copy from locations designated by ele_src 
8 */ 
9 void *result = malloc(ele_cnt * ele_size) ; 
10 if (result == NULL) 
11 /* malloc failed */ 
12 return NULL; 
13 void *next = result; 
14 ia; 
15 for (i = 0% i < elescnt; i414+){ 
16 /* Copy object i to destination */ 
17 memcpy(next，ele_src[i] ，ele_size) ; 
18 /* Move pointer to next memory region */ 
19 Dext += ele_size; 
. 20 } 
21 return result; 
22 } 


函数 copy elements 设计 用 来 将 ele_cnt 个 数据 结构 复制 到 第 9 行 的 函数 分 配 的 

缓冲 区 中 ， 每 个 数据 结构 包含 ele size 个 字 节 。 需 要 的 字 节 数 是 通过 计算 ele_cnt * 
ele size 得 到 的 。 
” ”想象 一 下 ， 一 个 怀 有 恶意 的 程序 员 在 被 编译 为 32 位 的 程序 中 用 参数 ele_cnt 等 于 
1048 577(2” 十 1)、ele _ size 等 于 4096(22) 来 调用 这 个 函数 。 然 后 第 9 行 上 的 乘法 会 
溢出 ， 导 致 只 会 分 配 4096 个 字 节 ， 而 不 是 装 下 这 些 数据 所 需要 的 4294 971 392 个 字 节 。 
从 第 15 行 开始 的 循环 会 试图 复制 所 有 的 字 节 ， 超 越 已 分 配 的 缓冲 区 的 界限 ， 因 而 破坏 
了 其 他 的 数据 结构 。 这 会 导致 程序 前 溃 或 者 行为 异常 。 

几乎 每 个 操作 系统 都 使 用 了 这 段 Sun 的 代码 ， 像 Internet Explorer 和 Kerberos 验证 系 
统 这 样 使 用 广泛 的 程序 都 用 到 了 它 。 计 算 机 紧急 响应 组 (Computer Emergency Response 
Team ，CERT) ， 由 卡 内 基 - 梅 隆 软 件 工程 协会 (Carnegie Mellon Software Engineering Insti- 
tute) 运 作 的 一 个 追踪 安全 漏洞 或 失效 的 组 织 ， 发 布 了 建议 “CA-2002-25”， 于 是 许多 公司 
和 急忙 对 它们 的 代码 打 补 丁 。 幸 运 的 是 ， 还 没有 由 于 这 个 漏洞 引起 的 安全 失效 的 报告 。 

库 函 数 calloc 的 实现 中 存在 着 类 似 的 漏洞 。 这 些 已 经 被 修补 过 了 。 遗 憾 的 是 ， 许 











多 程序 员 调 用 分 配 函 数 ( 如 malloc) 时 ， 使 用 算术 表达 式 作为 参数 ， 并 且 不 对 这 些 表达 
式 进行 溢出 检查 。 编 写 calloc 的 可 靠 版 本 留 作 一 道 练习 题 ( 家 庭 作业 2.76) 。 


臣 呈 练习 题 2.37 现在 你 有 一 个 任务 ， 当 数据 类 型 int 和 size t 都 是 32 位 的 ， 修补 上 
述 旁 注 给 出 的 XDR 代码 中 的 漏洞 。 你 决定 将 待 分 配 字 节 数 设置 为 数据 类 型 uint64 七， 
来 消除 乘法 溢出 的 可 能 性 。 你 把 原来 对 malloc 函数 的 调用 (第 9 行 ) 替 换 如 下 : 
uint64_t asize = 


ele_cnt * (uint64_t) ele_size; 
void *result = malloc(asize); 


提醒 一 下 ，malloc 的 参数 类 型 是 size t。 
A. 这 段 代码 对 原始 的 代码 有 了 哪些 改进 ? 
B. 你 该 如 何 修改 代码 来 消除 这 个 漏洞 ? 


2.3.6 乘 以 常数 


以 往 ， 在 大 多 数 机 器 上 ， 整 数 乘法 指令 相当 慢 ， 需 要 10 个 或 者 更 多 的 时 钟 周期 ， 然 
而 其 他 整数 运算 (例如 加 法 、 减 法 、 位 级 运算 和 移 位 ) 只 需要 1 个 时 钟 周期 。 即 使 在 我 们 的 
参考 机 器 Intel Core i7 Haswell 上 ， 其 整数 乘法 也 需要 3 个 时 钟 周期 。 因 此 ， 编 译 器 使 用 
了 一 项 重要 的 优化 ， 试 着 用 移 位 和 加 法 运算 的 组 合 来 代替 乘 以 常数 因子 的 乘法 。 首 先 ， 我 
们 会 考虑 乘 以 2 的 宕 的 情况 ， 然 后 再 概括 成 乘 以 任意 常数 。 

原理 : 乘 以 2 的 宕 

设 工 为 位 模式 [Xs_1，Xw_2;，*"…，Zo 表示 的 无 符号 整数 。 那 么 ， 对 于 任何 k 宇 0， 我 们 
都 认为 [zs_1，ZXw_-z，*"…，Zo，0，"…，0] 给 出 了 x2 的 ww 十 hk 位 的 无 符号 表示 ， 这 里 右边 
增加 了 个 0。 

因此 ， 比 如 ， 当 w==4 时 ，11 可 以 被 表示 为 L1011]。&==2 时 将 其 左 移 得 到 6 位 向 量 
[101100]， 即 可 编码 为 无 符号 数 11。 4 二 44。 

推导 : 乘 以 2 的 客 

这 个 属性 可 以 通过 等 式 (2. 1) 推 导出 来 : 


wl 
B2U ,ni ([ x Tu 2 9 To 0 9"* ,0 ]) 下 到 Ei 
i=0 





一 | Dx.2] 2 
= x2* 图 
当 对 固定 字 长 左 移 & 位 时 ， 其 高 & 位 被 丢弃 ， 得 到 
[za 9 Tu k2 9 To 0 9" i0 | 


而 执行 固定 字 长 的 乘法 也 是 这 种 情况 。 因 此 ， 我 们 可 以 看 出 左 移 一 个 数值 等 价 于 执行 一 个 
与 2 的 容 相 乘 的 无 符号 乘法 。 

原理 : 与 2 的 帘 相 有 弱 的 无 符号 腾 法 

CC 变量 x 和 Kk 有 无 符号 数值 工 和 &， 且 0 委 &<z， 则 C 表 达 式 x<<k 产生 数值 工 * 2*。 

由 于 固定 大 小 的 补 码 算术 运算 的 位 级 操作 与 其 无 符号 运算 等 价 ， 我 们 就 可 以 对 补 码 运 
算 的 2 的 需 的 乘法 与 左 移 之 间 的 关系 进行 类 似 的 表述 : 

原理 : 与 2 的 轩 相 乘 的 补 码 乘 法 

C 变量 x 和 有 补 码 值 工 和 无 符号 数值 上 &， 且 0< RE<<rz， 则 C 表达 式 x<<k 产生 数值 x 52 。 
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注意 ， 无 论 是 无 符号 运算 还 是 补 码 运算 ， 乘 以 2 的 宕 都 可 能 会 导致 游 出 。 结 果 表 明 ， 
即使 溢出 的 时 候 ， 我 们 通过 移 位 得 到 的 结果 也 是 一 样 的 。 回 到 前 面 的 例子 ， 我 们 将 4 位 模 
式 L1011]( 数 值 为 11) 左 移 两 位 得 到 [L101100] (数值 为 44)。 将 这 个 值 截断 为 4 位 得 到 
[1100]( 数 值 为 12 二 44 mod 16)。 

由 于 整数 乘法 比 移 位 和 加 法 的 代价 要 大 得 多 ， 许 多 C 语言 编译 器 试图 以 移 位 、 加 法 和 
减法 的 组 合 来 消除 很 多 整数 乘 以 常数 的 情况 。 例 如 ， 假 设 一 个 程序 包含 表达 式 x * 14。 利 
用 14 王 2 十 2 十 2 ， 编 译 器 会 将 乘法 重 写 为 (x<<3) + (x<<2)+ (x<<1) ， 将 一 个 乘法 替换 为 三 
个 移 位 和 两 个 加 法 。 无 论 x 是 无 符号 的 还 是 补 码 ， 甚 至 当 乘 法 会 导致 溢出 时 ， 两 个 计算 都 
会 得 到 一 样 的 结果 。( 根 据 整数 运算 的 属性 可 以 证 明 这 一 点 。) 更 好 的 是 ， 编 译 器 还 可 以 利 
用 属性 14 王 2 一 2 ， 将 乘法 重 写 为 (x<<4) - (x<<1) ， 这 时 只 需要 两 个 移 位 和 一 个 减法 。 
练习 题 2. 38 ”就 像 我 们 将 在 第 3 章 中 看 到 的 那样 ，LEA 指令 能 够 执行 形 如 (a<<k) +b 

的 计算 ， 这 里 k 等 于 0、1、2 或 3, 而 b 等 于 0 或 者 某 个 程序 值 。 编 译 器 常常 用 这 条 

痢 令 来 执行 常数 因子 乘法 。 人 例如， 我 们 可 以 用 (a<<1)+a 来 计算 3*a。 

考虑 b 等 于 0 或 者 等 于 a、k 为 任意 可 能 的 值 的 情况 ， 用 一 条 LEA 指令 可 以 计算 

a 的 哪些 倍数 ? 

归纳 一 下 我 们 的 例子 ， 考 虑 一 个 任务 ， 对 于 某 个 常数 K 的 表达 式 xx K 生成 代码 。 编 
译 器 会 将 K 的 二 进 制 表示 表达 为 一 组 0 和 1 交替 的 序 Sh 

[(0…0)(1…1)(0…0)…(1…1)] 
ee 
m)。( 对 于 14 来 说 ,我 们 有 n==3 和 m= 二 1,) 我 们 可 以 用 下 面 两 种 不 同形 式 中 的 一 种 来 计算 
这 些 位 对 乘积 的 影响 : 

形式 A: (x<<n) 十 (x<<(《n 一 1)) 十 … 十 (x<<m) 

形式 B; (x<<(n 十 1)) 一 (x<<m) 

把 每 个 这 样 连续 的 1 的 结果 加 起 来 ， 不 用 做 任何 乘法 ， 我 们 就 能 计算 出 x x K。 当 然 ， 选 
择 使 用 移 位 、 加 法 和 减法 的 组 合 ， 还 是 使 用 一 条 乘法 指令 ， 取 决 于 这 些 指 令 的 相对 速度 ， 
而 这 些 是 与 机 器 高 度 相 关 的 。 大 多 数 编译 器 只 在 需要 少量 移 位 、 加 法 和 减法 就 足够 的 时 候 
才 使 用 这 种 优化 。 

攻 s 练习 题 2. 39 对 于 位 位 置 为 最 高 有 效 位 的 情况 ， 我 们 要 怎样 修改 形式 B 的 表达 式 ? 
放出 练习 题 2. 40 ”对 于 下 面 每 个 开 的 值 ， 找 出 只 用 指定 数量 的 运算 表达 xx* KK 的 方法 ， 

这 里 我 们 认为 加 法 和 减法 的 开销 相当 。 除 了 我 们 已 经 考虑 过 的 简单 的 形式 A 和 了 B 原 

则 ， 你 可 能 会 需要 使 用 一 些 技巧 。 


| 

















证 练习 题 2. 41 对 于 一 组 从 位 位 置 n 开始 到 位 位 置 m 的 连续 的 1(n 宇 m)， 我 们 看 到 可 
以 产生 两 种 形式 的 代码 ，A 和 B。 编 译 器 该 如 何 决 定 使 用 哪 一 种 呢 ? 


2.3.7 除 以 2 的 景 
在 大 多 数 机 器 上 ， 整 数 除法 要 比 整 数 乘法 更 慢 一 一 需要 30 个 或 者 更 多 的 时 钟 周 期 。 
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除 以 2 的 备 也 可 以 用 移 位 运算 来 实现 ， 只 不 过 我 们 用 的 是 右 移 ， 而 不 是 左 移 。 无 符号 和 补 
码 数 分 别 使 用 逻辑 移 位 和 算术 移 位 来 达到 目的 。 

整数 除法 总 是 舍 入 到 零 。 为 了 准确 进行 定义 ,我 们 要 引入 一 些 符号 。 对 于 任何 实数 a， 
定义 La 上塘 唯一 的 整数 oa ， 使 得 a’ 二 a 过 a' 十 1。 例 如 , [3.14]=3, | 一 3.14 j= 一 4 而 L 3 ]= 
3。 同 样 ， 定 义 [ a ] 为 唯一 的 整数 a ， 使 得 a 一 1 二 a<a’。 例 如 , 『 3.141=4, [一 3.141= 一 3， 
而 [3 | 天 3。 对 于 x 之 0 和 y>0， 结 果 会 是 | z/yj， 而 对 于 x 二 0 和 y>>0， 结 果 会 是 [ z/y 1。 
也 就 是 说 ， 它 将 向 下 舍 人 一 个 正 值 ， 而 向 上 舍 入 一 个 负 值 。 

对 无 符号 运算 使 用 移 位 是 非常 简单 的 ， 部 分 原因 是 由 于 无 符号 数 的 右 移 一 定 是 逻辑 
右 移 。 

原理 : 除 以 2 的 震 的 无 符号 除法 

CC 变量 x 和 kk 有 无 符号 数值 和 有 &， 且 0 委 &< zw， 则 C 表 达 式 x>>k 产 生 数值 | z/24 ]。 

例如 ， 图 2-28 给 出 了 在 12 340 的 16 位 表示 上 执行 逻辑 右 移 的 结果 ， 以 及 对 它 执行 除 
以 1、2、16 和 256 的 结果 。 从 左 端 移 和 的 0 以 斜体 表示 。 我 们 还 给 出 了 用 真正 的 运算 做 
除法 得 到 的 结果 。 这 些 示 例 说 明 ， 移 位 总 是 舍 人 到 零 的 结果 ， 这 一 点 与 整数 除法 的 规则 
一 样 。 


Ta 


0011000000110100 12340.0 
0001100000011010 6170.0 





0000001100000011 T7123 
0000000000110000 48.203125 


图 2-28 无 符号 数 除 以 2 的 寡 ( 这 个 例子 说 明了 执行 一 个 逻辑 右 移 & 位 与 
除 以 2 再 舍 和 人 到 零 有 一 样 的 效果 ) 


推导 : 除 以 2 的 过 的 无 符号 除法 

设 x 为 位 模式 [x。_;，xs_:;，…，zoj 表 示 的 无 符号 整数 ， 而 的 取 值 范围 为 0 二 一 
w。 设 工 为 ww 一 k 位 位 表示 [x1，zw-z，*…，Zzij 的 无 符号 数 ， 而 x 为 上 位 位 表示 [zx_i， 
…，Zo 的 无 符号 数 。 由 此 ， 我 们 可 以 看 到 x 二 2*z 十 ， 而 0 志 z 二 2*。 因 此 ， 可 得 | zx/ 
2*]=x'。 

对 位 向 量 [z。, ，z。，*，…，xzo] 逻 辑 右 移 & 位 会 得 到 位 向 量 

[ge 
这 个 位 向 量 有 数值 zx ， 我 们 看 到 ， 该 值 可 以 通过 计算 x>>k 得 到 。 加 

对 于 除 以 2 的 寡 的 补 码 运算 来 说 ， 情 况 要 稍微 复杂 一 些 。 首 先 ， 为 了 保证 负数 仍然 为 
负 ， 移 位 要 执行 的 是 算术 右 移 。 现 在 让 我 们 来 看 看 这 种 右 移 会 产生 什么 结果 。 

原理 : 除 以 2 的 容 的 补 码 除 法 ， 向 下 全 入 

C 变量 x 和 kk 分别 有 补 码 值 工 和 无 符号 数值 &， 且 0 委 &< zw， 则 当 执 行 算 术 移 位 时 ， 
C 表达 式 x>>k 产生 数值 | zx/2* 」。 

对 于 zx 宇 9， 变 量 x 的 最 高 有 效 位 为 0， 所 以 效果 与 逻辑 右 移 是 一 样 的 。 因 此 ， 对 于 非 负 
数 来 说 ， 算 术 右 移 & 位 与 除 以 2 是 一 样 的 。 作 为 一 个 负数 的 例子 ， 图 2-29 给 出 了 对 一 12 340 
的 16 位 表示 进行 算术 右 移 不 同位 数 的 结果 。 对 于 不 需要 舍 人 的 情况 (4 二 1)， 结 果 是 z/24。 
但 是 当 需 要 进行 舍 人 时 ， 移 位 导致 结果 向 下 舍 人 。 例 如 ， 右 移 4 位 将 会 把 一 771. 25 向 下 伟人 
为 一 772。 我 们 需要 调整 策略 来 处 理 负 数 z 的 除法 。 
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1100111111001100 一 12340.0 
7110011111100110 一 6170.0 


7777110011111100 77125 
1111111111001111 —48.203125 





图 2-29 ”进行 算术 右 移 ( 这 个 例子 说 明了 算术 右 移 类 似 于 除 以 2 的 寡 ， 
除了 是 向 下 舍 人 ， 而 不 是 向 零 舍 人 入) 

推导 : 除 以 2 的 寡 的 补 码 除法 ， 向 下 伟人 

设 z 为 位 模式 [zi，zu。-，…，xzoj] 表 示 的 补 码 整数 ， 而 的 取 值 范围 为 0k 二 w。 
设 z 为 ww 一 位 [zs-1，zw-s，"…，xXij 表 示 的 补 码 数 ， 而 x 为 低位 [zxs-1!，…，zoj 表 示 
的 无 符号 数 。 通 过 与 对 无 符号 情况 类 似 的 分 析 ， 我 们 有 z 一 2z 十 x"， 而 0 过 x 二 2 ， 得 到 
Z 一 xz/24。 进 一 步 ， 可 以 观察 到 ， 算 术 右 移 位 向 量 Lz. ，Zzw-z，…，zojk 位 ， 得 到 位 
向 量 


[La 9 "9 并 tv 一 1 9 一 1 9 Xuw2 ,Th | 


它 刚好 就 是 将 [zs_1，zw_z，…，Zzij 从 w 一 & 位 符号 扩展 到 w 位 。 因 此 ， 这 个 移 位 后 的 位 
向 量 就 是 | xz/2*j 的 补 码 表示 。 图 


我 们 可 以 通过 在 移 位 之 前 “ 偏 置 (biasing)” 这 个 值 ， 来 修正 这 种 不 合适 的 舍 信 。 

原理 : 除 以 2 的 畦 的 补 码 除 法 ， 向 上 会 入 

C 变量 x 和 kk 分别 有 补 码 值 和 无 符号 数值 &， 且 0 三 k 二 w， 则 当 执 行 算术 移 位 时 ， 
C 表 达 式 (x+ (1<<k) 一 1) >>k 产生 数值 | xz/2* 」。 

图 2-30 说 明 在 执行 算术 右 移 之 前 加 上 一 个 适当 的 偏 置 量 是 如 何 导 致 结 果 正 确 舍 入 的 。 
在 第 3 列 ， 我 们 给 出 了 一 12 340 加 上 偏 量 值 之 后 的 结果 ,低位 (那些 会 向 右 移出 的 位 ) 以 
斜体 表示 。 我 们 可 以 看 到 ， 低 & 位 左边 的 位 可 能 会 加 1， 也 可 能 不 会 加 1。 对 于 不 需要 含 
人 的 情况 (4 二 1)， 加 上 偏 量 只 影响 那些 被 移 掉 的 位 。 对 于 需要 舍 人 的 情况 ， 加 上 偏 量 导 致 
较 高 的 位 加 1， 所 以 结果 会 向 零 舍 入。 


CE TT EY 


1100111111001100 1100111111001100 一 12340.0 


1100111111001107 7110011111100110 一 0170.0 


1100111111017077 7777110011111101 -771.25 
1101000017007077 7777777711010000 一 48.203125 








图 2-30 补 码 除 以 2 的 寡 ( 右 移 之 前 加 上 一 个 偏 量 ， 结 果 就 向 零售 人 了 ) 


偏 置 技 术 利 用 如 下 属性 : 对 于 整数 x 和 y(y>0)，「 z/y 1=[L(z 十 y 一 1)/y」。 例 如 ， 当 
xz 一 一 30 和 y 一 4， 我 们 有 x 十 y 一 1 二 一 27， 而 [一 30/4 ]= 一 7 一 [ 一 27/4 ]。 当 z 一 一 32 和 
y=4 时 ， 我 们 有 z 十 y 一 1 一 一 29， 而 [一 32/4 ] 王 一 8 一 [一 29/4 J。 

推导 : 除 以 2 的 寡 的 补 码 除法 ， 向 上 舍 人 

查看 [ z/y | 二 [Cz 十 y 一 1)/y 」， 假设 z= 二 gqy 十 +r， 其 中 0 万 r+ 二 y， 得 到 (zx 十 y 一 1)/y 王 
gq 二 (r 十 y 一 1)/y， 因 此 [L(xz 十 y 一 1)/yJ」 二 gq 十 [(r 十 y 一 1)/y」。 当 r==0 时 ， 后面 一 项 等 于 0， 
而 当 >>0 时 ， 等 于 1。 也 就 是 说 ， 通 过 给 z 增加 一 个 偏 量 y 一 1， 然 后 再 将 除法 向 下 舍 入 ， 
当 y 整除 zx 时 ， 我 们 得 到 g， 否 则 ， 就 得 到 g 十 1。 
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回 到 > 一 2 的 情况 ，C 表达 式 x+ (1<<k) -1 得 到 数值 x 十 2* 一 1。 将 这 个 值 算术 右 移 & 
位 即 产生 Lz/2* ]。 图 
这 个 分 析 表 明 对 于 使 用 算术 右 移 的 补 码 机 器 ，C 表达 式 


(x<0 ?了 x+(1<<k)-1 : x) >> k 


将 会 计算 数值 xz/2*。 
藤 s 练习 题 2.42 写 一 个 函数 div16， 对 于 整数 参数 x 返 回 x/16 的 值 。 你 的 函数 不 能 
使 用 除法 、 模 运算 、 乘 法 、 任 何 条 件 语 名 (if 或 者 ?:)、 任 何 比较 运算 符 ( 例 如 <、 
> 或 ==) 或 任何 循环 。 你 可 以 假设 数据 类 型 int 是 32 位 长 ， 使 用 补 码 表示 ， 而 右 移 
是 算术 右 移 。 
现在 我 们 看 到 ， 除 以 2 的 寡 可 以 通过 逻辑 或 者 算术 右 移 来 实现 。 这 也 正 是 为 什么 大 多 
数 机 器 上 提供 这 两 种 类 型 的 右 移 。 不 幸 的 是 ， 这 种 方法 不 能 推广 到 除 以 任意 常数 。 同 乘法 
不 同 ， 我 们 不 能 用 除 以 2 的 寡 的 除法 来 表示 除 以 任意 常数 开 的 除法 。 
区 对 练习 题 2.43 在 下 面 的 代码 中 ， 我 们 省 略 了 常数 M 和 N 的 定义 : 
#define M /* Mystery number 1 */ 
#define N /* Mystery number 2 */ 
int arith(int x, int y) { 
int result = 0; 
result = x*M + y/N; /* M and N are mystery numbers. */ 
return result; 





我 们 以 某 个 M 和 N 的 值 编译 这 段 代码 。 编 译 器 用 我 们 讨论 过 的 方法 优化 乘法 和 除 
法 。 下 面 是 将 产生 出 的 机 器 代码 翻译 回 C 语言 的 结果 : 
/* Translation of assembly code for arith */ 
int optarith(int x, int y) { 

int tt = x; 

X <<= 5; 

x 

i (Uy < 0) TF t= Ty 

y >>= 3; /* Arithmetic shift */ 

return X+y ; 


M 和 N 的 值 为 多 少 ? 


2.3.8 关于 整数 运算 的 最 后 思 


正如 我 们 看 到 的 ， 计 算 机 执行 的 “整数 ”运算 实际 上 是 一 种 模 运 算 形 式 。 表 示 数 字 的 
有 限 字 长 限制 了 可 能 的 值 的 取 值 范围 ， 结 果 运 算 可 能 溢出 。 我 们 还 看 到 ， 补 码 表示 提供 了 
一 种 既 能 表示 负数 也 能 表示 正 数 的 灵活 方法 ， 同 时 使 用 了 与 执行 无 符号 算术 相同 的 位 级 实 
现 ， 这 些 运算 包括 像 加 法 、 减 法 、 乘 法 ， 甚 至 除法 ， 无 论 运 算数 是 以 无 符号 形式 还 是 以 补 
码 形式 表示 的 ， 都 有 完全 一 样 或 者 非常 类 似 的 位 级 行为 。 

我 们 看 到 了 C 语言 中 的 某 些 规 定 可 能 会 产生 令 人 意 想 不 到 的 结果 ， 而 这 些 结 果 可 能 是 
难以 察觉 或 理解 的 缺陷 的 源头 。 我 们 特别 看 到 了 unsigned 数据 类 型 ， 虽 然 它 概念 上 很 简 
单 ， 但 可 能 导致 即使 是 资深 程序 员 都 意 想 不 到 的 行为 。 我 们 还 看 到 这 种 数据 类 型 会 以 出 乎 
意料 的 方式 出 现 ， 比 如 ， 当 书写 整数 常数 和 当 调 用 库 函 数 时 。 
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区 SS 练习 题 2. 44 假设 我 们 在 对 有 符号 值 使 用 补 码 运算 的 32 位 机 器 上 运行 代码 。 对 于 有 符号 
值 使 用 的 是 算术 右 移 ， 而 对 于 无 符号 值 使 用 的 是 逻辑 右 移 。 变 量 的 声明 和 初始 化 如 下 : 
int x = foo(); /* Arbitrary value */ 
int y = bar(); /* Arbitrary Value */ 


unsigned ux = xXx; 
unsigned uy = y; 
对 于 下 面 每 个 C 表 达 式 ，1) 证 明 对 于 所 有 的 x 和 y 值 ， 它 都 为 真 (等 于 1); 或 者 
2) 给 出 使 得 它 为 假 ( 等 于 0) 的 x 和 yy 的 值 : 
. (x >0) || (x-1 < 0) 
(x&7) 1!=7 || (x<<29 < 0) 
(x* XxX) >= 0 
.x<01|l-x<=0 
.x>01|-x>=0 


X+y == Uy+ux 


QATHINm> 


. X*~Yy + Uy*UX == —X 


2.4 浮 点 数 

浮 点 表示 对 形 如 V 二 xX2? 的 有 理 数 进行 编码 。 它 对 执行 涉及 非常 大 的 数字 (|V | 二 > 
0)、 非 常 接近 于 0C1V|<<<1) 的 数字 ， 以 及 更 普遍 地 作为 实数 运算 的 近似 值 的 计算 ,是 很 
有 用 的 。 

直到 20 世纪 80 年 代 ， 每 个 计算 机 制造 商都 设计 了 自己 的 表示 浮 点 数 的 规则 ， 以 及 对 
浮 点 数 执行 运算 的 细节 。 另 外 ， 它 们 常常 不 会 太 多 地 关注 运算 的 精确 性 ， 而 把 实现 的 速度 
和 简便 性 看 得 比 数字 精确 性 更 重要 。 

“大 约 在 1985 年 ， 这 些 情况 随 着 IEEE 标准 754 的 推出 而 改变 了 ， 这 是 一 个 仔细 制订 的 
表示 浮 点 数 及 其 运算 的 标准 。 这 项 工作 是 从 1976 年 开始 由 Intel 赞助 的 ， 与 8087 的 设计 
同时 进行 ，8087 是 一 种 为 8086 处 理 器 提供 浮 点 支持 的 芯片 。 他 们 请 William Kahan( 加 州 
大 学 伯克利 分 校 的 一 位 教授 ) 作 为 顾问 ， 帮 助 设计 未 来 处 理 器 浮 点 标准 。 他 们 支持 Kahan 
加 入 一 个 IEEE 资助 的 制订 工业 标准 的 委员 会 。 这 个 委员 会 最 终 采纳 的 标准 非常 接近 于 
Kahan 为 Intel 设计 的 标准 。 目 前 ， 实 际 上 所 有 的 计算 机 都 支持 这 个 后 来 被 称 为 IEEE 淫 
点 的 标准 。 这 大 大 提高 了 科学 应 用 程序 在 不 同 机 器 上 的 可 移植 性 。 


区 IEEE( 电 气 和 电子 工程 师 协 会 ) 

电气 和 电子 工程 师 协 会 (IEEE， 读 做 “eyer-triple-ee”) 是 一 个 包括 所 有 电子 和 计算 机 
技术 的 专业 团体 。 它 出 版 刊物 ， 举 办 会 议 ， 并 且 建 立 委 员 会 来 定义 标准 ， 内 容 涉 及 从 电 
力 传输 到 软件 工程 。 另 一 个 IEEE 标准 的 例子 是 无 线 网 络 的 802. 11 标准 。 


在 本 节 中 ， 我 们 将 看 到 IEEE 浮 点 格式 中 数字 是 如 何 表示 的 。 我 们 还 将 探讨 会 入 
Grounding) 的 问题 ， 即 当 一 个 数字 不 能 被 准确 地 表示 为 这 种 格式 时 ， 就 必须 向 上 调整 或 者 
向 下 调整 。 然 后 ， 我 们 将 探讨 加 法 、 乘 法 和 关系 运算 符 的 数学 属性 。 许 多 程序 员 认 为 浮 点 
数 没意思 ， 往 坏 了 说 ， 深 奥 难 懂 。 我 们 将 看 到 ， 因 为 IEEE 格式 是 定义 在 一 组 小 而 一 致 的 
原则 上 的 ， 所 以 它 实际 上 是 相当 优雅 和 容易 理解 的 。 








2.4.1 二 进 制 小 数 


理解 浮 点 数 的 第 一 步 是 考虑 含有 小 数值 的 二 进 制 数字 。 首 先 ， 让 我 们 来 看 看 更 熟悉 的 
十 进 制 表示 法 。 十 进 制 表示 法 使 用 如 下 形式 的 表示 : 
ddni"""didss did gd 
其 中 每 个 十 进 制 数 d; 的 取 值 范围 是 0 一 9。 这 个 表达 描述 的 数值 4 定义 如 下 : 


d = 2 用 动 


数字 权 的 定义 与 十 进 制 小 数 点 符号 (“ .相关 ，j 这 意味 着 小 数 点 左边 的 数字 的 权 是 10 
的 正 需 ， 得 到 整数 值 ， 而 小 数 点 右边 的 数字 的 权 是 10 的 负 寡 ， 得 到 小 数值 。 例 如 ， 


12. 34io 表 示 数 字 1X10: 十 2X10" 十 3X10 ”十 4X10- :一 12 3。 


类 似 ， 考 虑 一 个 形 如 
babmi "bibo. b10 3 01D_， 
的 表示 法 ， 其 中 每 个 二 进 制 数字 ， 或 者 


称 为 位 ，b; 的 取 值 范围 是 0 和 1， 如 4 
图 2-31 所 示 。 这 种 表示 方法 表示 的 数 。 和 2 
定义 如 下 : [全 


ba Bl A b> bl bo bl b-» bs a Db-ntl b-n 


二 3 Xb; 《2. 19) | 
ak 1/4 





符号 “. ”现在 变 为 了 二 进 制 的 点 ， 点 





左边 的 位 的 权 是 2 的 正 罕 ， 点 右边 的 位 1/8 
的 权 是 2 的 负 帘 。 例 如 ，101. 11; 表示 
数字 1X2? 十 0X2! 十 1X2 十 1X2-7! 十 112 
是 二 1 1 5 li2r 
1X2-? 二 4 十 0 十 1 十 二 十 一 二 5 二 。 
2 渤 4 图 2-31 小 数 的 二 进 制 表示 。 二 进 制 点 左边 的 数字 的 
从 等 式 (2.19) 中 可 以 很 容易 地 看 权 形 如 2， 而 右边 的 数字 的 权 形 如 1/2: 


出 ， 二 进 制 小 数 点 向 左 移动 一 位 相当 于 这 个 数 被 2 除 。 例 如 ，101. 11: 表示 数 5 于 ， 而 


10. 111, 表 示 数 2 十 0 十 却 十 于 十 言 一 2 言 。 类 似 ， 二 进 制 小 数 点 向 右 移动 一 位 相当 于 将 该 


数 乘 2。 例 如 1011. 1, 表 示 数 8 十 0 十 ?十 1 十 元 =11 本。 


注意 ， 形 如 0. 11…1, 的 数 表示 的 是 刚好 小 于 1 的 数 。 例 如 ， 0.111111, 表 示人 ， 我 们 
将 用 简单 的 表达 法 1. 0 一 e 来 表示 这 样 的 数值 。 

假定 我 们 仅 考 虑 有 限 长 度 的 编码 ， 那么 十 进 制 表示 法 不 能 准确 地 表达 像 计 和 壮 这 样 的 
数 。 类 似 ， 小 数 的 二 进 制 表示 法 只 能 表示 那些 能 够 被 写成 zX2* 的 数 。 其 他 的 值 只 能 够 被 
近似 地 表示 。 例 如 ， 数字 二 可 以 用 十 进 制 小 数 0. 20 精确 表示 。 不 过 ， 我 们 并 不 能 把 它 准 


确 地 表示 为 一 个 二 进 制 小 数 ， 我 们 只 能 近似 地 表示 它 ， 增 加 二 进 制 表示 的 长 度 可 以 提高 表 
示 的 精度 : 
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| ”表示 十 进 制 
0.0， 
1 
0.01, 了 
0.010， 
如 
0.0011， 语 
0.00110, 各 0.1875,。 
区 
0.001101， 呈 0.203125,, 
0.0011010， 该 0.203125。 
0.00110011， 0.19921875。 











练习 题 2. 45 填写 下 表 中 的 缺失 的 信息 : 








小 数值 | 二 进 制 表示 十 进 制 表示 | 














ES 练 习题 2. 46” 浮 点 运算 的 不 精确 性 能 够 产生 灾难 性 的 后 果 。1991 年 2 月 25 日 ， 在 第 
一 次 海湾 战争 期 间 ， 沙 特 阿 拉 伯 的 达 摩 地 区 设置 的 美国 爱国 者 导弹 ， 拦 截 伊 拉克 的 飞 
毛 腿 导弹 失败 。 飞 毛 腿 导弹 击 中 了 美国 的 一 个 兵营 ， 造 成 28 名 士兵 死亡 。 美 国 总 审 

” 计 局 (GAO) 对 失败 原因 做 了 详细 的 分 析 L76j， 并 且 确 定 底层 的 原因 在 于 一 个 数字 计 
算 不 精确 。 在 这 个 练习 中 ， 你 将 重 现 总 审计 局 分 析 的 一 部 分 。 

爱国 者 导弹 系统 中 含有 一 个 内 置 的 时 钟 ， 其 实现 类 似 一 个 计数 器 ， 每 0.1 秒 就 加 
1。 为 了 以 秒 为 单位 来 确定 时 间 ， 程 序 将 用 一 个 24 位 的 近似 于 1/10 的 二 进 制 小 数值 
来 乘 以 这 个 计数 器 的 值 。 特 别 地 ，1710 的 二 进 制 表达 式 是 一 个 无 穷 序列 0. 000110011 
L0011]…。， 其 中 ， 方 括号 里 的 部 分 是 无 限 重复 的 。 程序 用 值 x 来 近似 地 表示 0.1，z 
只 考虑 这 个 序列 的 二 进 制 小 数 点 右边 的 前 23 位 : zx 一 0.00011001100110011001100。 
(参考 练习 题 2. 51， 里 面 有 关于 如 何 能 够 更 精确 地 近似 表示 0.1 的 讨论 。) 
A. 0.1 一 工 的 二 进 制 表示 是 什么 ? 
B. 0. 1 一 工 的 近似 的 十 进 制 值 是 多 少 ? 
C. 当 系 统 初始 启动 时 ， 时 钟 从 0 开始， 并 且 一 直 保 持 计 数 。 在 这 个 例子 中 ， 系 统 已 
经 运行 了 大 约 100 个 小 时 。 程 序 计 算出 的 时 间 和 实际 的 时 间 之 差 为 多 少 ? 
D. 系统 根据 一 枚 来 歼 导 弹 的 速率 和 它 最 后 被 雷达 侦 测 到 的 时 间 ， 来 预测 它 将 在 哪里 
出 现 。 假 定 飞毛腿 的 速率 大 约 是 2000 米 每 秒 ， 对 它 的 预测 偏差 了 多 少 ? 
通过 一 次 读 取 时 钟 得 到 的 绝对 时 间 中 的 轻微 错误 ， 通常 不 会 影响 跟踪 的 计算 。 相 反 ， 
它 应 该 依赖 于 两 次 连续 的 读 取 之 间 的 相对 时 间 。 问 题 是 爱国 者 导弹 的 软件 已 经 升级 ， 可 以 
使 用 更 精确 的 函数 来 读 取 时 间 ， 但 不 是 所 有 的 函数 调用 都 用 新 的 代码 替换 了 。 结 果 就 是 ， 
跟踪 软件 一 次 读 取 用 的 是 精确 的 时 间 ， 而 另 一 次 读 取 用 的 是 不 精确 的 时 间 [103]。 
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2. 4. 2 IEEE 浮 点 表示 


前 一 节 中 谈 到 的 定点 表示 法 不 能 很 有 效 地 表示 非常 大 的 数字 。 例 如 ， 表 达 式 5X2'”" 是 
用 101 后 面 跟随 100 个 零 的 位 模式 来 表示 。 相 反 ， 我 们 希望 通过 给 定 x 和 yy 的 值 ， 来 表示 
形 如 zxX2? 的 数 。 

IEEE 浮 点 标准 用 V=( 一 1):XMX25 的 形式 来 表示 一 个 数 : 

@ 符号 (sign) 决定 这 数 是 负数 (* 王 1) 还 是 正 数 (*= 王 0) ， 而 对 于 数值 0 的 符号 位 解释 

作为 特殊 情况 处 理 。 

@ 尾数 (significand) M 是 一 个 二 进 制 小 数 ， 它 的 范围 是 1 一 2 一 s， 或 者 是 0 一 1 一 e。 

e@ 阶 码 (exponent) 五 的 作用 是 对 浮 点 数 加 权 ， 这 个 权重 是 2 的 巨 次 窜 ( 可 能 是 负数 )。 

将 浮 点 数 的 位 表示 划分 为 三 个 字段 ， 分 别 对 这 些 值 进行 编码 : 

@ 一 个 单独 的 符号 位 * 直接 编码 符号 s。 

e@ 上 位 的 阶 码 字段 exp 王 ecl…eleo 编 码 阶 码 2 

@ n 位 小 数字 段 frac 二 f,_1… 了 1fo 编码 尾数 M， 但 是 编码 出 来 的 值 也 依赖 于 阶 码 字 

段 的 值 是 否 等 于 0。 

图 2-32 给 出 了 将 这 三 个 字段 装 进 字 中 两 种 最 常见 的 格式 。 在 单 精度 浮 点 格式 (C 诺言 
中 的 float) 中 ，s、exp 和 frac 字段 分 别 为 1 位 、&=8 位 和 2 一 23 位 ， 得 到 一 个 32 位 的 
表示 。 在 双 精 度 浮 点 格式 (C 语言 中 的 double) 中 ，s、exp 和 frac 字段 分 别 为 1 位 、& 一 
11 位 和 ?一 52 位 ， 得 到 一 个 64 位 的 表示 。 


单 精 度 
31 30 23 22 0 
is 
双 精 度 


63 62 | 52 51 32 
31 0 


图 2-32 标准 浮 点 格式 ( 浮 点 数 由 3 个 字段 表示 。 两 种 最 常见 的 格式 是 它们 
被 封装 到 32 位 ( 单 精度 ) 和 64 位 ( 双 精 度 ) 的 字 中 ) 
给 定位 表示 ， 根 据 exp 的 值 ， 被 编码 的 值 可 以 分 成 三 种 不 同 的 情况 (最 后 一 种 情况 有 
两 个 变种 )。 图 2-33 说 明了 对 单 精度 格式 的 情况 。 
1. 规 格 化 的 


2. 非 规格 化 


















的 
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情况 1: 规格 化 的 值 

这 是 最 普遍 的 情况 。 当 exp 的 位 模式 既 不 全 为 0( 数 值 0) ， 也 不 全 为 1( 单 精度 数值 为 
255， 双 精度 数值 为 2047) 时 ， 都 属于 这 类 情况 。 在 这 种 情况 中 ， 阶 码 字 有 段 被 解释 为 以 偏 置 
(biased) 形 式 表 示 的 有 符号 整数 。 也 就 是 说 ， 阶 码 的 值 是 =e 一 Bias， 其 中 。 是 无 符号 数 ， 
其 位 表示 为 e.-1…eieo。， 而 Bias 是 一 个 等 于 2*! 一 1( 单 精度 是 127， 双 精度 是 1023) 的 偏 置 
值 。 由 此 产生 指数 的 取 值 范围 ， 对 于 单 精 度 是 一 126 一 十 127， 而 对 于 双 精 度 是 一 1022 一 
十 1023 。 

小 数字 段 frac 被 解释 为 描述 小 数值 /， 其 中 0 三 f 二 1， 其 二 进 制 表示 为 0. 万 - 
有 ho， 也 就 是 二 进 制 小 数 点 在 最 高 有 效 位 的 左边 。 尾 数 定 义 为 M 二 1 十 f。 有 时 ， 这 种 方式 
也 叫做 隐 仿 的 以 1 开头 的 (implied leading 1) 表 示 ， 因 为 我 们 可 以 把 M 看 成 一 个 二 进 制 表 
达 式 为 1. f,-1f,-s… fo 的 数字 。 既 然 我 们 总 是 能 够 调整 阶 码 下 ， 使 得 尾数 M 在 范围 1 委 
M<2 之 中 (假设 没有 溢出 )， 那 么 这 种 表示 方法 是 一 种 轻松 获得 一 个 额外 精度 位 的 技巧 。 
既然 第 一 位 总 是 等 于 1， 那 么 我 们 就 不 需要 显 式 地 表示 它 。 

情况 2: 非 规 格 化 的 值 

当 阶 码 域 为 全 0 时 ， 所 表示 的 数 是 非 规格 化 形式 。 在 这 种 情况 下 ， 阶 码 值 是 =1 一 
Bias， 而 尾数 的 值 是 M 二 =f， 也 就 是 小 数字 段 的 值 ， 不 包含 隐 含 的 开头 的 1。 


旁 注 | 对 于 非 规格 化 值 为 什么 要 这 样 设置 偏 置 值 
使 阶 码 值 为 1 一 Bias 而 不 是 简单 的 一 Bias 似乎 是 违反 直觉 的 。 我 们 将 很 快 看 到 ， 这 
种 方式 提供 了 一 种 从 非 规格 化 值 平滑 转换 到 规格 化 值 的 方法 。 


非 规 格 化 数 有 两 个 用 途 。 首 先 ， 它们 提供 了 一 种 表示 数值 0 的 方法 ， 因 为 使 用 规格 化 
数 ， 我 们 必须 总 是 使 M 宇 1， 因 此 我 们 就 不 能 表示 0。 实 际 上 ， 十 0.0 的 浮 点 表示 的 位 模式 为 
全 0: 符号 位 是 0， 阶 码 字 段 全 为 0( 表 明 是 一 个 非 规格 化 值 )， 而 小 数 域 也 全 为 0， 这 就 得 到 
M= 一 0。 令 人 奇怪 的 是 ， 当 符号 位 为 1， 而 其 他 域 全 为 0 时 ， 我们 得 到 值 一 0.0。 根 据 
IEEE 的 浮 点 格式 ， 值 十 0.0 和 一 0. 0 在 某 些 方面 被 认为 是 不 同 的 ， 而 在 其 他 方面 是 相同 的 。 

非 规格 化 数 的 另外 一 个 功能 是 表示 那些 非常 接近 于 0.0 的 数 。 它 们 提供 了 一 种 属性 ， 
称 为 逐渐 溢出 (gradual underflow)， 其 中 ， 可 能 的 数值 分 布 均匀 地 接近 于 0. 0。 

情况 3: 特殊 值 

最 后 一 类 数值 是 当 指 阶 码 全 为 1 的 时 候 出 现 的 。 当 小 数 域 全 为 0 时 ， 得 到 的 值 表示 无 
穷 ， 当 s 二 0 时 是 十 ce ， 或 者 当 ;二 1 时 是 一 cz。 当 我 们 把 两 个 非常 大 的 数 相 乘 ， 或 者 除 以 零 
时 ， 无 穷 能 够 表示 溢出 的 结果 。 当 小 数 域 为 非 零 时 ， 结 果 值 被 称 为 “NaN”， 即 “不 是 一 个 
数 (Not a Number)” 的 缩写 。 一 些 运 算 的 结果 不 能 是 实数 或 无 穷 ， 就 会 返回 这 样 的 NaN 值 ， 
比如 当 计算 V 一 1 或 ce 一 co 时 。 在 某 些 应 用 中 ， 表 示 未 初始 化 的 数据 时 ， 它 们 也 很 有 用 处 。 


2.4.3 数字 示例 

图 2-34 展示 了 一 组 数值 ， 它 们 可 以 用 假定 的 6 位 格式 来 表示 ， 有 二 3 的 阶 码 位 和 ?一 
2 的 尾数 位 。 偏 置 量 是 2 ' 一 1 二 3。 图 中 的 a 部 分 显示 了 所 有 可 表示 的 值 (除了 NaN)。 两 
个 无 穷 值 在 两 个 末端 。 最 大 数量 值 的 规格 化 数 是 土 14。 非 规格 化 数 聚 集 在 0 的 附近 。 图 的 
b 部 分 中 ， 我 们 只 展示 了 介 于 一 1.0 和 十 1.0 之 间 的 数值 ， 这 样 就 能 够 看 得 更 加 清楚 了 。 
两 个 零 是 特殊 的 非 规格 化 数 。 可 以 观察 到 ， 那 些 可 表示 的 数 并 不 是 均匀 分 布 的 一 一 越 靠近 
原点 处 它们 越 稠密 。 
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日 一 一 一 一 妇 一 和 一 女 一 可 一 妇女 会 太 AOANEIRMMAAAAA 二 友 二 妇 一 在 一 二 一 二 一 二 一 一 本 一 一 一 二 一 一 一人 日 


一 oa 一 10 -5 0 +5 +10 +% 
| * 非 规格 化 的 。 规格 化 的 ”9 无 穷 | 
a) 完整 范围 
=0 十 四 


-1 -0.8 -06 -04 -0.2 0 +02 +0.4 +0.6 +0.8 +1 
。 非 规格 化 的 ”a 规格 化 的 “日 无 穷 
b) 范围 在 -1.0 ~ +1.0 的 数值 


图 2-34 6 位 浮 点 格式 可 表示 的 值 (==3 的 阶 码 位 和 z=2 的 尾数 位 。 偏 置 量 是 3) 


图 2-35 展示 了 假定 的 8 位 浮 点 格式 的 示例 ， 其 中 有 & 二 4 的 阶 码 位 和 二 3 的 小 数位 。 
偏 置 量 是 2 ”一 1= 王 7。 图 被 分 成 了 三 个 区 域 ， 来 描述 三 类 数字 。 不 同 的 列 给 出 了 阶 码 字 段 
是 如 何 编 码 阶 码 EE 的， 小 数字 段 是 如 何 编码 尾数 M 的 ， 以 及 它们 一 起 是 如 何 形成 要 表示 
的 值 V==2*XM 的。 从 0 自身 开始 ， 最 靠近 0 Ei 这 种 格式 的 非 规格 化 数 的 


=1 一 7 二 一 6， 得 到 权 2 一 襄 。 小 数 f 的 值 的 范围 是 0， 于 ， a) 译 ， 从 而 得 到 数 V 的 
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图 2-35 ”8 位 浮 点 格式 的 非 负 值 示例 (k=4 的 阶 码 位 的 和 ”一 3 的 小 数位 。 偏 置 量 是 7) 
这 种 形式 的 最 小 规格 化 数 同样 有 天 =1 一 7 王 一 6， 并 且 小 数 取 值 范围 也 为 0， 于 ， ay 


7 _15> 间 ,得 2 
。 然 而 ， 尾 数 在 范围 1 十 0 一 1 和 1 十 襄 一 富 之 间 ， 得 出 数 V 在 范围 二 7 一 和 二 之 间 。 
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可 以 观察 到 最 大 非 规格 化 数 = 人 5 和 最 小 规格 化 数 =]5 之 间 的 平滑 转变 。 这 种 平滑 性 归功 


于 我 们 对 非 规格 化 数 的 巨 的 定义 。 通 过 将 已 定义 为 1 一 Bias， 而 不 是 一 Bias， 我 们 可 以 补 
偿 非 规格 化 数 的 尾数 没有 隐 含 的 开头 的 1 ， 

当 增 大 阶 码 时 ， 我 们 成 功 地 得 到 更 大 的 规格 化 值 ， 通 过 1. 0 后 得 到 最 大 的 规格 化 数 。 
这 个 数 具有 阶 码 一 7， 得 到 一 个 权 2 一 128。 小 数 等 于 芯 得 到 尾数 M 一 立 。 因 此 ,数值 
是 Y=240。 超 出 这 个 值 就 会 溢出 到 十 co。 

这 种 表示 具有 一 个 有 趣 的 属性 ， 假 如 我 们 将 图 2-35 中 的 值 的 位 表达 式 解释 为 无 符号 
整数 ， 它 们 就 是 按 升序 排列 的 ， 就 像 它们 表示 的 浮 点 数 一 样 。 这 不 是 偶然 的 一 -IEEE 格 
式 如 此 设计 就 是 为 了 浮 点 数 能 够 使 用 整数 排序 函数 来 进行 排序 。 当 处 理 负数 时 ， 有 一 个 小 
的 难点 ， 因 为 它们 有 开头 的 1， 并 且 它们 是 按照 降序 出 现 的 ， 但 是 不 需要 浮 点 运算 来 进行 
比较 也 能 解决 这 个 问题 (参见 家 庭 作 业 2. 84) 。 

有 练习 题 2. 47 候 设 一 个 基于 IEEE 浮 点 格式 的 5 位 泽 点 表示 ， 有 1 个 符号 位 、2 个 阶 

码 位 (二 2) 和 两 个 小 数位 (n 二 2)。 阶 码 偏 置 量 是 2! 一 1 一 1。 

下 表 中 列举 了 这 个 5 位 浮 点 表示 的 全 部 非 负 取 值 范围 。 使 用 下 面 的 条 件 ， 填 写 表格 中 

的 空白 项 : 

e: 假定 阶 码 字 段 是 一 个 无 符号 整数 所 表示 的 值 。 

E， 偏 置 之 后 的 阶 码 值 。 

22， 阶 码 的 权重 。 

f: 小 数值 。 

M， 尾数 的 值 。 

25XM: 该 数 (未 归 约 的 ) 小 数值 。 

V: 该 数 归 约 后 的 小 数值 。 

.十进制 ， 该 数 的 十 进 制 表示 。 


写 出 22、f、M、2*XM 和 V 的 值 ， 要 么 是 整数 (如 果 可 能 的 话 )， 要 么 是 形 如 
的 小 数 ， 这 里 是 2 的 客 。 标 注 为 “一 ”的 条 目 不 用 填 。 
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图 2-36 展示 了 一 些 重要 的 单 精度 和 双 精 度 浮 点 数 的 表示 和 数字 值 。 根 据 图 2-35 中 展 
示 的 8 位 格式 ， 我 们 能 够 看 出 有 & 位 阶 码 和 7 位 小 数 的 浮 点 表示 的 一 般 属 性 。 








0 0.0 
最 小 非 规 格 化 数 NI 重生 2-23 x2-126 2- 52 X 2 -1022 4.9 x 10-324 


最 大 非 规格 化 数 1 本 (1— €) x2-126 k (1— &) x2-1022 | 2.2 x 10-308 
最 小 规格 化 数 2 i 1 六 分 226 1 x2-1022 2.2 x 10-308 
1 … 1 x20 1.0 1 2 1.0 

最 大 规格 化 数 … …… (2-e) x2127 3.4 x 1038 (2— 8) x21023 | 1.8 x10308 








图 2-36 非 负 浮 点 数 的 示例 


e@ 值 十 0.0 总 有 一 个 全 为 0 的 位 表示 。 

e 最 小 的 正 非 规格 化 值 的 位 表示 ， 是 由 最 低 有 效 位 为 1 而 其 他 所 有 位 为 0 构成 的 。 它 
具有 小 数 ( 和 尾数 ) 值 M= f= 二 2“” 和 阶 码 值 E= 一 2*! 十 2。 因 此 它 的 数字 值 是 
人 

e 最 大 的 非 规 格 化 值 的 位 模式 是 由 全 为 0 的 阶 码 字段 和 全 为 1 的 小 数字 段 组 成 的 。 它 
有 小 数 ( 和 尾数 ) 值 M= j 一 1 一 2 一 (我 们 写成 1 一 s) 和 阶 码 值 下 = 一 2 和 :十 2。 因 此 ， 
数值 V= (1 一 2-")X2-* +?*， 这 仅 比 最 小 的 规格 化 值 小 一 点 。 

e 最 小 的 正规 格 化 值 的 位 模式 的 阶 码 字段 的 最 低 有 效 位 为 1， 其 他 位 全 为 0。 它 的 尾 
数值 M=1， 而 阶 码 值 E= 一 2 生 : 十 2。 因 此 ， 数 值 V 一 2-” +?。 

e 值 1.0 的 位 表示 的 阶 码 字段 除了 最 高 有 效 位 等 于 1 以 外 ， 其 他 位 都 等 于 0。 它 的 尾 
数值 是 M 二 1， 而 它 的 阶 码 值 是 E=0。 

e 最 大 的 规格 化 值 的 位 表示 的 符号 位 为 0， 阶 码 的 最 低 有 效 位 等 于 0， 其 他 位 等 于 1。 
它 的 小 数值 f=1 一 2-"， 尾 数 M 二 2 一 2-" (我们 写作 2 一 e)。 它 的 阶 码 值 下 =2 和 :一 
1， 得 到 数值 V= (2 一 2-")X2* :一 (1 一 2 一 1)X22 。 

练习 把 一 些 整 数值 转换 成 浮 点 形式 对 理解 浮 点 表示 很 和 用。 例如 ， 在 图 2-15 中 我 们 

看 到 12 345 具有 二 进 制 表示 [L11000000111001]。 通 过 将 二 进 制 小 数 点 左 移 13 位 ， 我 们 创 
建 这 个 数 的 一 个 规格 化 表示 ， 得 到 12345 二 1. 1000000111001; X23。 为 了 用 IEEE 单 精度 
形式 来 编码 ， 我 们 丢弃 开头 的 1， 并 且 在 末尾 增加 10 个 0， 来 构造 小 数字 段 ， 得 到 二 进 制 
表示 [10000001110010000000000]。 为 了 构造 阶 码 字 段 ， 我 们 用 13 加 上 偏 置 量 127， 得 到 
140， 其 二 进 制 表示 为 L10001100]。 加 上 符号 位 0, 我 们 就 得 到 二 进 制 的 浮 点 表示 
L01000110010000001110010000000000]。 回 想 一 下 2.1.3 节 ， 我 们 观察 到 整数 值 12345 
(0x3039) 和 单 精度 浮 点 值 12345.0(0x4640E400) 在 位 级 表示 上 有 下 列 关系 : 


0 0 0 0 3 0 3 9 
00000000000000000011000000111001 
六 六 六 六 六 六 六 六 六 六 六 六 六 


4 6 4 0 E 4 0 0 
01000110010000001110010000000000 
现在 我 们 可 以 看 到 ， 相 关 的 区 域 对 应 于 整数 的 低位 ， 刚 好 在 等 于 1 的 最 高 有 效 位 之 前 
停止 (这 个 位 就 是 隐 仿 的 开头 的 位 1)， 和 浮 点 表示 的 小 数 部 分 的 高 位 是 相 匹 配 的 。 
练习 题 2.48 正如 在 练习 题 2.6 中 提 到 的 ， 整 数 3 510 593 的 十 六 进 制 表示 为 
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0x00359141， 而 单 精度 浮 点 数 3510593.0 的 十 六 进 制 表示 为 0x4A564504。 推 导出 这 
个 浮 点 表示 ， 并 解释 整数 和 浮 点 数 表示 的 位 之 间 的 关系 。 
记 练习 题 2. 49 
A. 对 于 一 种 具有 nn 位 小 数 的 浮 点 格式 ， 给 出 不 能 准确 描述 的 最 小 正 整 数 的 公式 (因为 
要 想 准确 表示 它 需 要 ?十 1 位 小 数 )。 假 设 阶 码 字段 长 度 有 足够 大 ， 可 以 表示 的 阶 
码 范 围 不 会 限制 这 个 问题 。 
B. 对 于 单 精度 格式 (n= 二 23)， 这 个 整数 的 数字 值 是 多 少 ? 


2.4.4 全 入 


因为 表示 方法 限制 了 浮 点 数 的 范围 和 精度 ， 所 以 浮 点 运算 只 能 近似 地 表示 实数 运算 。 
因此 ， 对 于 值 xz， 我 们 一 般 想 用 一 种 系统 的 方法 ， 能 够 找到 “最 接近 的 ”匹配 值 x ， 它 可 
以 用 期 望 的 浮 点 形式 表示 出 来 。 这 就 是 会 入 (rounding) 运 算 的 任务 。 一 个 关键 问题 是 在 两 
个 可 能 值 的 中 间 确 定 舍 和 方向。 例如 ， 如 果 我 有 1. 50 美元 ， 想 把 它 舍 人 到 最 接近 的 美元 
数 ， 应 该 是 1 美元 还 是 2 美元 呢 ? 一 种 可 选择 的 方法 是 维持 实际 数字 的 下 界 和 上 界 。 例 
如 ， 我 们 可 以 确定 可 表示 的 值 xz- 和 z+ ， 使 得 z 的 值 位 于 它们 之 间 : zx 委 z 委 zf+ 。IEEE 
浮 点 格式 定义 了 四 种 不 同 的 含 入 方式 。 默 认 的 方法 是 找到 最 接近 的 匹配 ， 而 其 他 三 种 可 用 
于 计算 上 界 和 下 界 。 

图 2-37 举例 说 明了 四 种 会 和 方式， 将 一 个 金额 数 舍 人 到 最 接近 的 整数 美元 数 。 向 侦 
数 舍 人 (round-to-even) ， 也 被 称 为 向 最 接近 的 值 舍 入 (round-to-nearest)， 是 默认 的 方式 ， 
试图 找到 一 个 最 接近 的 匹配 值 。 因 此 ， 它 将 1. 40 美元 伟人 成 1 美元 ， 而 将 1. 60 美元 舍 入 
成 2 美元， 因为 它们 是 最 接近 的 整数 美元 值 。 唯 一 的 设计 决策 是 确定 两 个 可 能 结果 中 间 数 
值 的 舍 人 效果 。 向 偶数 售 人 方式 采用 的 方法 是 : 它 将 数字 向 上 或 者 向 下 含 人 ， 使 得 结果 的 
最 低 有 效 数 字 是 偶数 。 因 此 ， 这 种 方法 将 1.5 美元 和 2. 5 美元 都 舍 人 成 2 美元 。 








图 2-37 ”以 美元 舍 和 为 例 说 明 舍 人 方式 (第 一 种 方法 是 合 入 到 一 个 最 接近 的 值 ， 
而 其 他 三 种 方法 向 上 或 向 下 限定 结果 ， 单 位 为 美元 ) 


其 他 三 种 方式 产生 实际 值 的 确 界 (guaranteed bound) 。 这 些 方 法 在 一 些 数字 应 用 中 是 
很 有 用 的 。 向 零售 人 方式 把 正 数 向 下 伟人 ， 把 负数 向 上 含 人 ， 得 到 值 冯 ， 使 得 | 人 | 委 |z|。 
向 下 舍 人 方式 把 正 数 和 负数 都 向 下 舍 人 ， 得 到 值 x ,使 得 x 三 +x。 向 上 舍 入 方式 把 正 数 
和 人 负数 都 向 上 舍 信 ， 得 到 值 zx* ， 满 足 zx 和 zc。 

向 偶数 会 入 初 看 上 去 好 像 是 个 相当 随意 的 目标 有 什么 理由 偏向 取 偶 数 呢 ? 为 什么 
不 始终 把 位 于 两 个 可 表示 的 值 中 间 的 值 都 向 上 含 人 呢 ? 使 用 这 种 方法 的 一 个 问题 就 是 很 容 
易 假 想到 这 样 的 情景 : 这 种 方法 舍 入 一 组 数值 ， 会 在 计算 这 些 值 的 平均 数 中 引入 统计 偏 
差 。 我 们 采用 这 种 方式 舍 入 得 到 的 一 组 数 的 平均 值 将 比 这 些 数 本 身 的 平均 值 略 高 一 些 。 相 
反 ， 如 果 我 们 总 是 把 两 个 可 表示 值 中 间 的 数字 向 下 舍 入 ， 那 么 舍 入 后 的 一 组 数 的 平均 值 将 
比 这 些 数 本 身 的 平均 值 略 低 一 些 。 向 偶数 会 入 在 大 多 数 现实 情况 中 避免 了 这 种 统计 偏差 。 








在 50%% 的 时 间 里 ， 它 将 向 上 伟人 ， 而 在 50% 的 时 间 里 ， 它 将 向 下 舍 人 人。 

在 我 们 不 想 舍 入 到 整数 时 ， 也 可 以 使 用 向 偶数 会 人 。 我 们 只 是 简单 地 考虑 最 低 有 效 数 
字 是 奇数 还 是 侦 数 。 例 如 ， 假 设 我 们 想 将 十 进 制 数 合 人 到 最 接近 的 百 分 位 。 不 管用 那 种 舍 
和 信 方 式 ， 我 们 都 将 把 1. 2349999 舍 人 到 1.23， 而 将 1. 2350001 伟人 到 1. 24， 因 为 它们 不 
是 在 1.23 和 1.24 的 正中 间 。 另 一 方面 我 们 将 把 两 个 数 1. 2350000 和 1. 2450000 都 舍 人 到 
1. 24， 因 为 4 是 偶数 。 

相似 地 ， 向 偶数 合 入 法 能 够 运用 在 二 进 制 小 数 上 。 我 们 将 最 低 有 效 位 的 值 0 认为 是 偶 
数 ， 值 1 认为 是 奇数 。 一 般 来 说 ， 只 有 对 形 如 XX…X.YY…Y100… 的 二 进 制 位 模式 的 数 ， 
这 种 舍 人 方式 才 有 效 ， 其 中 X 和 YY 表示 任意 位 值 ， 最 右边 的 Y 是 要 被 伟人 的 位 置 。 只 有 
这 种 位 模式 表示 在 两 个 可 能 的 结果 正中 间 的 值 。 例 如 ， 考 虑 舍 人 值 到 最 近 的 四 分 之 一 的 问 


题 (也 就 是 二 进 制 小 数 点 右边 2 位 )。 我 们 将 10. 00011; (2 35) 向 下 伟人 到 10.00: (2)， 
10. 00110; (2 向 ) 向 上 会 人 到 10.01, (2 邯 ) ， 因 为 这 些 值 不 是 两 个 可 能 值 的 正中 间 值 。 我 们 将 


10. 11100, (2 总 ) 向 上 伟人 成 11. 00,(3)， 而 10. 10100: (2 言 ) 向 下 伟人 成 10. 10: (2 去)， 因 为 


这 些 值 是 两 个 可 能 值 的 中 间 值 ， 并 且 我 们 倾向 于 使 最 低 有 效 位 为 零 。 
司 s 练习 题 2.50 ”根据 倒 入 到 偶数 规则 ， 说 明 如 何 将 下 列 二 进 制 小 数值 合 入 到 最 接近 的 
二 分 之 一 (二 进 制 小 数 点 右边 1 位 )。 对 每 种 情况 ， 给 出 使 入 前 后 的 数字 值 。 
A. 10.010， 
B. 10. 011， 
©. 10. 110 
D. 11. 001， 
苹 异 练习 题 2.51 在 练习 题 2.46 中 我 们 看 到 ， 爱 国 者 导弹 软件 将 0.1 近 似 表 示 为 工 一 
0. 00011001100110011001100。 。 假 设 使 用 IEEE 含 入 到 偶数 方式 来 确定 0.1 的 二 进 制 
小 数 点 右边 23 位 的 近似 表示 x'。 
A. z 的 二 进 制 表示 是 什么 ? 
B. xz' 一 0.1 的 十 进 制 表示 的 近似 值 是 什么 ? 
C. 运行 100 小 时 后 ， 计 算 时 钟 值 会 有 多 少 偏差 ? 
D. 该 程序 对 飞毛腿 导弹 位 置 的 预测 会 有 多 少 偏差 ? 
七 S 练习 题 2.52 考虑 下 列 基于 IEEE 浮 点 格式 的 7 位 浮 点 表示 。 两 个 格式 都 没有 符号 
位 一 一 它们 只 能 表示 非 负 的 数字 。 
1. 格式 A 
@ 有 上 二 3 个 阶 码 位 。 阶 码 的 篇 置 值 是 3。 
@ 有 7 一 4 个 小 数位 。 
2. 格式 也 
@ 有 RE 一 4 个 阶 码 位 。 阶 码 的 偏 置 值 是 7。 
@ 有 7 一 3 个 小 数位 。 
下 面 给 出 了 一 些 格 式 A 表示 的 位 模式 ， 你 的 任务 是 将 它们 转换 成 格式 B 中 最 接 
近 的 值 。 如 果 需 要 ， 请 使 用 含 入 到 偶数 的 含 入 原则 。 另 外 ， 给 出 由 格式 A 和 格式 也 
表示 的 位 模式 对 应 的 数字 的 值 。 给 出 整数 (例如 17) 或 者 小 数 ( 例 如 17/64) 。 
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格式 A 








011 0000 


010 1001 


汪汪 有 TLE 
000 0001 
2.4.5 浮 点 运算 


IEEE 标准 指定 了 一 个 简单 的 规则 ， 来 确定 诸如 加 法 和 乘法 这 样 的 算术 运算 的 结果 。 
把 浮 点 值 x 和 y 看 成 实数 ， 而 某 个 运算 定义 在 实数 上 上， 计算 将 产生 Roxzd(z@y)， 这 是 
对 实际 运算 的 精确 结果 进行 舍 人 后 的 结果 。 在 实际 中 ， 浮 点 单元 的 设计 者 使 用 一 些 聪 明 的 
小 技巧 来 避免 执行 这 种 精确 的 计算 ， 因 为 计算 只 要 精确 到 能 够 保证 得 到 一 个 正确 的 舍 入 结 
果 就 可 以 了 。 当 参数 中 有 一 个 是 特殊 值 ( 如 一 0、 一 ce 或 NaN) 时 ，IEEE 标准 定义 了 一 些 
使 之 更 合理 的 规则 。 例 如 ， 定 义 1/ 一 0 将 产生 一 co， 而 定义 1/ 十 0 会 产生 十 ce。 

IEEE 标准 中 指定 浮 点 运算 行为 方法 的 一 个 优势 在 于 ， 它 可 以 独立 于 任何 具体 的 硬件 或 
者 软件 实现 。 因 此 ， 我 们 可 以 检查 它 的 抽象 数学 属性 ， 而 不 必 考 虑 它 实际 上 是 如 何 实现 的 。 

前 面 我 们 看 到 了 整数 (包括 无 符号 和 补 码 ) 加 法 形成 了 阿 贝 尔 群 。 实 数 上 的 加 法 也 形成 了 
阿 贝 尔 群 ， 但 是 我 们 必须 考虑 舍 人 对 这 些 属性 的 影响 。 我 们 将 x 十 'y 定义 为 Round (xz 十 y)。 
这 个 运算 的 定义 针对 xz 和 yy 的 所 有 取 值 ， 但 是 虽然 x 和 y 都 是 实数 ， 由 于 溢出 ， 该 运算 可 
能 得 到 无 穷 值 。 对 于 所 有 x 和 yy 的 值 ， 这 个 运算 是 可 交换 的 ， 也 就 是 说 x 十 'y 二 y 十 'T。 另 
一 方面 ， 这 个 运算 是 不 可 结合 的 。 例 如 ， 使 用 单 精 度 浮 点 ， 表 达 式 (3. 14+1e10) -le10 求 
值得 到 0. 0 一 一 因为 伟人 ， 值 3. 14 会 丢失 。 另 一 方面 ， 表 达 式 3. 14+ (le10-1e10) 得 出 值 
3.14。 作 为 阿 贝尔 群 ， 大 多 数值 在 浮 点 加 法 下 都 有 逆 元 ， 也 就 是 说 x 十 {一 + 二 0。 无 穷 ( 因 
为 二 co 一 co 二 NaN) 和 NaN 是 例外 情况 ， 因 为 对 于 任何 zx， 都 有 NaN 十 ‘z= 二 NaN，。 

浮 点 加 法 不 具有 结合 性 ， 这 是 缺少 的 最 重要 的 群 属性 。 对 于 科学 计算 程序 员 和 编译 器 
编写 者 来 说 ， 这 具有 重要 的 含义 。 例 如 ， 假 设 一 个 编译 器 给 定 了 如 下 代码 片段 : 

y = b+ 二 汪 

编译 器 可 能 试图 通过 产生 下 列 代码 来 省 去 一 个 浮 点 加 法 : 

t=b+ce; 

X= a+t; 

y=t+d; 

然而 ， 对 于 x 来 说 ， 这 个 计算 可 能 会 产生 与 原始 值 不 同 的 值 ， 因 为 它 使 用 了 加 法 运算 
的 不 同 的 结合 方式 。 在 大 多 数 应 用 中 ， 这 种 差异 小 得 无 关 紧 要 。 不 幸 的 是 ， 编 译 器 无 法 知 
道 在 效率 和 忠实 于 原始 程序 的 确切 行为 之 间 ， 使 用 者 愿意 做 出 什么 样 的 选择 。 结 果 是 ， 编 
译 器 倾向 于 保守 ， 避 免 任 何 对 功能 产生 影响 的 优化 ， 即 使 是 很 轻微 的 影响 。 

另 一 方面 ， 浮 点 加 法 满足 了 单调 性 属性 : 如 果 a 之 2p， 那 么 对 于 任何 ac、2 以 及 zz 的 值 ， 
除了 NaN， 都 有 <z 十 ca 之 z 十 2。 无 符号 或 补 码 加 法 不 具有 这 个 实数 (和 整数 ) 加 法 的 属性 。 

浮 点 乘法 也 遵循 通常 乘法 所 具有 的 许多 属性 。 我 们 定义 x*:y 为 Round (zxXy)。 这 个 
运算 在 乘法 中 是 封闭 的 (虽然 可 能 产生 无 穷 大 或 NeN) ， 它 是 可 交换 的 ， 而 且 它 的 乘法 单位 元 
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为 1.0。 另 一 方面 ， 由 于 可 能 发 生 溢出 ， 或 者 由 于 售 人 而 失去 精度 ， 它 不 具有 可 结合 性 。 例 
如 ， 单 精度 浮 点 情况 下 ， 表 达 式 (le20*1e20) *le-20 求 值 为 ce， 而 le20* (le20xle-20) 将 
得 出 le20。 另 外 ， 浮 点 乘法 在 加 法 上 不 具备 分 配 性 。 例 如 ， 单 精度 浮 点 情况 下 ， 表 达 式 
le20* (le20-le20) 求 值 为 0.0， 而 le20*1e20-le20*1e20 会 得 出 NaN。 
男 一 方面 ， 对 于 任何 a、5 和 c， 并 且 a、b 和 c 都 不 等 于 NaN， 浮 点 乘法 满足 下 列 单调 性 : 
abHcSS0 SS 0 人 人 0% 
a 宇 6 有 Ec<0 > axftc 近 pxfc 
此 外 ， 我 们 还 可 以 保证 ， 只 要 a 了 关 NaN， 就 有 ax* ‘a 宇 0。 像 我 们 先前 所 看 到 的 ， 无 符 
号 或 补 码 的 乘法 没有 这 些 单调 性 属性 。 
对 于 科学 计算 程序 员 和 编译 器 编写 者 来 说 ， 缺 乏 结合 性 和 分 配 性 是 很 严重 的 问题 。 即 
使 为 了 在 三 维 空间 中 确定 两 条 线 是 否 交叉 而 写 代 码 这样 看 上 去 很 简单 的 任务 ， 也 可 能 成 为 
一 个 很 大 的 挑战 。 


2.4.6 C 语 言 中 的 浮 点 数 


所 有 的 C 语 言 版 本 提供 了 两 种 不 同 的 浮 点 数据 类 型 ，float 和 double。 在 支持 IEEE 浮 点 
格式 的 机 器 上 ， 这 些 数据 类 型 就 对 应 于 单 精 度 和 双 精 度 浮 点 。 另 外 ， 这 类 机 器 使 用 向 偶数 舍 人 
的 舍 和 方式。 不幸 的 是 ， 因 为 C 语 言 标准 不 要 求 机 器 使 用 IEEE 浮 点 ， 所 以 没有 标准 的 方法 来 
改变 舍 人 方式 或 者 得 到 诸如 一 0、 十 oO、 一 吕 或 者 NaN 之 类 的 特殊 值 。 大 多 数 系统 提供 
includel“.h’) 文 件 和 读 取 这 些 特 征 的 过 程 库 ， 但 是 细节 随 系统 不 同 而 不 同 。 例 如 ， 当 程序 文件 中 
出 现下 列 句 子 时 ，GNU 编译 器 GCC 会 定义 程序 常数 INFINITY( 表 示 十 cc) 和 NAN( 表 示 NaN): 

#define _GNU_SOURCE 1 

#include <math .h> 
七 汪 练习 题 2.53 完成 下 列 宏 定义 ， 生 成 双 精 度 值 十 cc 、 一 cc 和 0: 


#define POS_INFINITY 
#define NEG_INFINITY 
#define NEG_ZERO 


不 能 使 用 任何 include 文件 (例如 math.nh)， 但 你 能 利用 这 样 一 个 事实 : 双 精 度 

能 够 表示 的 最 大 的 有 限 数 ， 大 约 是 1. 8X10。 

当 在 int、float 和 double 格式 之 间 进 行 强 制 类 型 转换 时 ， 程 序 改变 数值 和 位 模式 

的 原则 如 下 (假设 int 是 32 位 的 ): 

@ 从 int 转换 成 float， 数 字 不 会 溢出 ,但 是 可 能 被 舍 和 信 。 

@ 从 int 或 float 转换 成 double， 因 为 double 有 更 大 的 范围 (也 就 是 可 表示 值 的 范 
围 ) ， 也 有 更 高 的 精度 (也 就 是 有 效 位 数 ) ， 所 以 能 够 保留 精确 的 数值 。 

@ 从 double 转换 成 float， 因 为 范围 要 小 一 些 ， 所 以 值 可 能 溢出 成 十 ce 或 一 cc 。 另 
外 ， 由 于 精确 度 较 小 ， 它 还 可 能 被 含 人 。 

@ 从 float 或 者 double 转换 成 int， 值 将 会 向 零售 人 。 例 如 ，1. 999 将 被 转换 成 1， 
而 一 1. 999 将 被 转换 成 一 1。 进 一 步 来 说 ， 值 可 能 会 溢出 。C 语言 标准 没有 对 这 种 情 
况 指定 固定 的 结果 。 与 Intel 兼容 的 微 处 理 器 指定 位 模式 [10…00j]( 字 长 为 ww 时 的 
TMin) 为 整数 不 确定 (integer indefinite) 值 。 一 个 从 浮 点 数 到 整数 的 转换 ， 如 果 不 
能 为 该 浮 点 数 找到 一 个 合理 的 整数 近似 值 ， 就 会 产生 这 样 一 个 值 。 因 此 ， 表 达 式 
(int)+lel0 会 得 到 -21483648， 即 从 一 个 正 值 变 成 了 一 个 负 值 。 





Ariane 5 一 一 浮 点 溢出 的 高 昂 代价 

将 大 的 浮 点 数 转 换 成 整数 是 一 种 常见 的 程序 错误 来 源 。1996 年 6 月 4 日 ，Ariane 5 
火箭 初次 航行 ， 一 个 错误 便 产 生 了 灾难 性 的 后 果 。 发 射 后 仅仅 37 秒 钟 ， 火 箭 偏 离 了 它 
的 飞行 路 径 ， 解 体 并 且 爆 炸 。 火 箭 上 载 有 价值 5 亿美 元 的 通信 卫星 。 

后 来 的 调查 [73，33] 显 示 ， 控 制 惯性 导航 系统 的 计算 机 向 控制 引擎 喷嘴 的 计算 机 发 
送 了 一 个 无 效 数 据 。 它 没有 发 送 飞行 控制 信息 ， 而 是 送出 了 一 个 诊断 位 模式 ， 表 明 在 将 
一 个 64 位 浮 点 数 转换 成 16 位 有 符号 整数 时 ， 产 生 了 溢出 。 

溢出 的 值 测 量 的 是 火箭 的 水 平 速率 ， 这 上 比 早 先 的 Ariane 4 火箭 所 能 达到 的 速度 高 出 
“了 5 倍 。 在 设计 Ariane 4 火箭 软件 时 ， 他 们 小 心地 分 析 了 这 些 数字 值 ， 并 且 确 定 水 平 速 
率 决 不 会 超出 一 个 16 位 数 的 表示 范围 。 不 幸 的 是 ， 他 们 在 Ariane 5 火箭 的 系统 中 简单 
地 重用 了 这 一 部 分 ， 而 没有 检查 它 所 基于 的 假设 。 


练习 题 2. 54 ”假定 变量 x、f 和 d 的 类 型 分 别 是 int、float 和 double。 除 了 f 和 dd 者 
不 能 等 于 十 co、 一 ce 或 者 NaN， 它 们 的 值 是 任意 的 。 对 于 下 面 每 个 C 表 达 式 ， 证 明 它 
总 是 为 真 (也 就 是 求 值 为 1) ， 或 者 给 出 一 个 使 表达 式 不 为 真 的 值 ( 也 就 是 求 值 为 0) 。 
A. x== (int) (double) x 
B; x== (int) (开工 af) x 
C. d== (double) (float) d 
D. £== (float) (double) f 
E. £f == -(-f) 
F., 
G 
H 





1 Of/2 == 1/2.0 
. d*d >= 0.0 
. (f+d)-f == Q 


2.5， 小 结 


计算 机 将 信息 编码 为 位 (比特 )， 通 常 组 织 成 字 节 序列 。 有 不 同 的 编码 方式 用 来 表示 整数 、 实 数 和 字 
符 串 。 不 同 的 计算 机 模型 在 编码 数字 和 多 字 节 数据 中 的 字 节 顺序 时 使 用 不 同 的 约定 。 

C 语 言 的 设计 可 以 包容 多 种 不 同 字 长 和 数字 编码 的 实现 。64 位 字 长 的 机 器 逐渐 普及 ， 并 正在 取代 统治 
市 场 长 达 30 多 年 的 32 位 机 器 。 由 于 64 位 机 器 也 可 以 运行 为 32 位 机 器 编译 的 程序 ， 我 们 的 重点 就 放 在 区 
分 32 位 和 64 位 程序 ， 而 不 是 机 器 本 身 。64 位 程序 的 优势 是 可 以 突破 32 位 程序 具有 的 4GB 地 址 限制 。 

大 多 数 机 器 对 整数 使 用 补 码 编码 ， 而 对 浮 点 数 使 用 IEEE 标准 754 编码 。 在 位 级 上 理解 这 些 编码 ， 并 
且 理 解 算 术 运 算 的 数学 特性 ， 对 于 想 使 编写 的 程序 能 在 全 部 数值 范围 上 正确 运算 的 程序 员 来 说 ， 是 很 重要 的 。 

在 相同 长 度 的 无 符号 和 有 符号 整数 之 间 进 行 强制 类 型 转换 时 ， 大 多 数 C 语言 实现 遵循 的 原则 是 底层 
的 位 模式 不 变 。 在 补 码 机 器 上 ， 对 于 一 个 多 位 的 值 ， 这 种 行为 是 由 函数 T2U。 和 U2T. 来 描述 的 。C 语 
言 隐 式 的 强制 类 型 转换 会 出 现 许 多 程序 员 无 法 预计 的 结果 ， 常 常 导 致 程序 错误 。 

由 于 编码 的 长 度 有 限 ， 与 传统 整数 和 实数 运算 相 比 ， 计 算 机 运算 具有 非常 不 同 的 属性 。 当 超出 表示 
范围 时 ， 有 限 长 度 能 够 引起 数值 溢出 。 当 浮 点 数 非 常 接近 于 0.0， 从 而 转换 成 零 时 ， 也 会 下 洲 。 

和 大 多 数 其 他 程序 语言 一 样 ，C 语言 实现 的 有 限 整 数 运算 和 真实 的 整数 运算 相 比 ， 有 一 些 特殊 的 属 
性 。 例 如 ， 由 于 溢出 ， 表 达 式 x*x 能够 得 出 负数 。 但 是 ， 无 符号 数 和 补 码 的 运算 都 满足 整数 运算 的 许多 
其 他 属性 ， 包 括 结合 律 、 交 换 律 和 分 配 律 。 这 就 允许 编译 器 做 很 多 的 优化 。 例 如 ， 用 (x<<3) -x 取代 表达 
式 7*x 时 ， 我 们 就 利用 了 结合 律 、 交 换 律 和 分 配 律 的 属性 ， 还 利用 了 移 位 和 乘 以 2 的 备 之 间 的 关系 。 

我 们 已 经 看 到 了 几 种 使 用 位 级 运算 和 算术 运算 组 合 的 聪明 方法 。 例 如 ， 使 用 补 码 运算 ，~x+1 等 价 于 
-x。 男 外 一 个 例子 ， 假设 我 们 想 要 一 个 形 如 [0，…，0，1，…，1] 的 位 模式 ， 由 w 一 个 0 后 面 紧 跟着 
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个 1 组 成 。 这 些 位 模式 有 助 于 掩 码 运算 。 这 种 模式 能 够 通过 C 表达 式 (1<<k) -1 生成 ， 利 用 的 是 这 样 一 个 
属性 ， 即 我 们 想 要 的 位 模式 的 数值 为 2 一 1。 例 如 ， 表 达 式 (1<<8) -1 将 产生 位 模式 0xFF。 

浮 点 表示 通过 将 数字 编码 为 zX2” 的 形式 来 近似 地 表示 实数 。 最 常见 的 浮 点 表示 方式 是 由 IEEE 标 
准 754 定义 的 。 它 提供 了 几 种 不 同 的 精度 ， 最 常见 的 是 单 精度 (32 位 ) 和 双 精 度 (64 位 )。IEEE 浮 点 也 能 
够 表示 特殊 值 十 cc、 一 cc 和 NaN。 

必须 非常 小 心地 使 用 浮 点 运算 ， 因 为 浮 点 运算 只 有 有 限 的 范围 和 精度 ， 而 且 并 不 遵守 普遍 的 算术 属 
性 ， 比 如 结合 性 。 


参考 文献 说 明 


关于 C 语言 的 参考 书 [45，61] 讨 论 了 不 同 的 数据 类 型 和 运算 的 属性 。( 这 两 本 书 中 ， 只 有 Steele 和 
Harbison 的 书 [45] 涵 盖 了 ISO C99 中 的 新 特性 。 目 前 还 没有 看 到 任何 涉及 ISO C11 新 特性 的 书籍 。) 对 于 
精确 的 字 长 或 者 数字 编码 C 语言 标准 没有 详细 的 定义 。 这 些 细 节 是 故意 省 去 的 ， 这 样 可 以 在 更 大 范围 的 
不 同 机 器 上 实现 C 语言 。 已 经 有 几 本 书 [59，74] 给 了 C 语言 程序 员 一 些 建议 ， 警 告 他 们 关于 溢出 、 隐 式 
强制 类 型 转换 到 无 符号 数 ， 以 及 其 他 一 些 已 经 在 这 一 章 中 谈 及 的 陷阱 。 这 些 书 还 提供 了 对 变量 命名 、 编 
码 风 格 和 代码 测试 的 有 益 建 议 。Seacord 的 书 [97] 是 关于 C 和 C++ 程序 中 的 安全 问题 的 ， 本 书 结合 了 C 
程序 的 有 关 信息 ， 介 绍 了 如 何 编 译 和 执行 程序 ， 以 及 漏洞 是 如 何 造成 的 。 关 于 Java 的 书 ( 我 们 推荐 Java 
语言 的 创始 人 James Gosling 参与 编写 的 一 本 书 [5]) 描 述 了 Java 支持 的 数据 格式 和 算术 运算 。 

关于 逻辑 设计 的 书 L58，116] 都 有 关于 编码 和 算术 运算 的 章节 ， 描 述 了 实现 算术 电路 的 不 同方 式 。 
Overton 的 关于 IEEE 浮 点 数 的 书 [82]， 从 数字 应 用 程序 员 的 角度 ， 详 细 描 述 了 格式 和 属性 。 


家 庭 作业 


*2.55 在 你 能 够 访问 的 不 同 机 器 上 ， 使 用 show_bytes( 文 件 show-bytes.c) 编 译 并 运行 示例 代码 。 确 定 
这 些 机 器 使 用 的 字 节 顺序 。 

* 2.56 试 着 用 不 同 的 示例 值 来 运行 show_bytes 的 代码 。 

*2.57 编写 程序 show_short、show_long 和 show_double， 它 们 分 别 打印 类 型 为 short、1long 和 doub- 
le 的 C 语 言 对 象 的 字 节 表示 。 请 试 着 在 几 种 机 器 上 运行 。 

** 2.58 编写 过 程 is_little_endian， 当 在 小 端 法 机 器 上 编译 和 运行 时 返回 1， 在 大 端 法 机 器 上 编译 运行 
时 则 返回 0。 这 个 程序 应 该 可 以 运行 在 任何 机 器 上 ， 无 论 机 器 的 字 长 是 多 少 。 

** 2.59 编写 一 个 C 表 达 式 ， 它 生成 一 个 字 ， 由 x 的 最 低 有 效 字 节 和 y 中 剩 下 的 字 节 组 成 。 对 于 运算 数 x 
=0x89ABCDEF 和 y=0x76543210， 就 得 到 0x765432EF。 

** 2. 60 ”假设 我 们 将 一 个 多 位 的 字 中 的 字 节 从 0( 最 低位 ) 到 w/8 一 1( 最 高 位 ) 编 号 。 写 出 下 面 C 函数 的 代 
码 ， 它 会 返回 一 个 无 符号 值 ， 其 中 参数 x 的 字 节 i 被 蔡 换 成 字 节 b: 


unsigned replace_byte (unsigned x, int i, unsigned char b); 


以 下 示例 ， 说 明了 这 个 函数 该 如 何 工作 : 
replace_byte(O0x12345678, 2, OxAB) --> Ox12AB5678 
replace_byte(Ox12345678, 0, OxAB) --> Ox123456AB 
位 级 整数 编码 规则 
在 接 下 来 的 作业 中 ， 我 们 特意 限制 了 你 能 使 用 的 编程 结构 ， 来 帮 你 更 好 地 理解 C 语言 的 位 级 、 逻 辑 
和 算术 运算 。 在 回答 这 些 问题 时 ， 你 的 代码 必须 遵守 以 下 规则 : 
@ 假设 
a 整数 用 补 码 形 式 表示 。 
有 符号 数 的 右 移 是 算术 右 移 。 
@ 数据 类 型 int 是 ww 位 长 的 。 对 于 某 些 题 目 ， 会 给 定 ww 的 值 ， 但 是 在 其 他 情况 下 ， 只 要 w 是 8 的 
整数 倍 ， 你 的 代码 就 应 该 能 工作 。 你 可 以 用 表达 式 sizeof (int)<<3 来 计算 w。 





e@ 禁止 使 用 

a 条 件 语句 (if 或 者 ?:)、 循 环 、 分 支 语句 、 函 数 调用 和 宏 调用 。 

a 除法 、 模 运算 和 乘法 。 

@ 相对 比较 运算 ( 拓 、 之 、 妇 一 和 > 一 ) 。 

允许 的 运算 

于 所 有 的 位 级 和 逻辑 运算 。 

a 左 移 和 右 移 ， 但 是 位 移 量 只 能 在 0 和 ww 一 1 之 间 。 

m 加 法 和 减法 。 

a 相等 (一 一 ) 和 不 相等 (! =) 测 试 。( 在 有 些 题目 中 ， 也 不 允许 这 些 运算 。) 
a 整 型 常数 INT MIN 和 INT_MAX。 

mn 对 int 和 unsigned 进行 强制 类 型 转换 ， 无论 是 显 式 的 还 是 隐 式 的 。 
即使 有 这 些 条 件 的 限制 ， 你 仍然 可 以 选择 带 有 描述 性 的 变量 名 ， 并 且 使 用 注释 来 描述 你 的 解决 方案 


的 逻辑 ， 尽 量 提高 代码 的 可 读 性 。 例 如 ， 下 面 这 段 代码 从 整数 参数 x 中 抽取 出 最 高 有 效 字 节 : 


wh 2,61 


林 2. 62 


灯 2. 63 


/* Get most significant byte from x */ 
int get_msb(int x) { 


/* Shift by w-8 */ 

int shift_val = (sizeof (int)-1)<<3; 
/* Arithmetic shift */ 

int xright = x >> shift_val; 

/* Zero all but LSB */ 

return xright & OxFF; 


} 


写 一 个 C 表达 式 ， 在 下 列 描述 的 条 件 下 产生 1， 而 在 其 他 情况 下 得 到 0。 假设 x 是 int 类 型 。 

A. x 的 任何 位 都 等 于 1。 

B. x 的 任何 位 都 等 于 0。 

C. x 的 最 低 有 效 字 节 中 的 位 都 等 于 1。 

D. x 的 最 高 有 效 字 节 中 的 位 都 等 于 0。 

代码 应 该 遵循 位 级 整数 编码 规则 ， 另 外 还 有 一 个 限制 ， 你 不 能 使 用 相等 (= =) 和 不 相等 (! =) 
测试 。 

编写 一 个 函数 int_shifts_are_arithmetic()， 在 对 int 类 型 的 数 使 用 算术 右 移 的 机 器 上 运行 时 
这 个 函数 生成 1， 而 其 他 情况 下 生成 0。 你 的 代码 应 该 可 以 运行 在 任何 字 长 的 机 器 上 。 在 几 种 机 器 
上 测试 你 的 代码 。 

将 下 面 的 C 函数 代码 补充 完整 。 函 数 srl 用 算术 右 移 (由 值 xsra 给 出 ) 来 完成 逻辑 右 移 ， 后 面 的 其 
他 操作 不 包括 右 移 或 者 除法 。 函 数 sra 用 逻辑 右 移 (由 值 xsrl 给 出 ) 来 完成 算术 右 移 ， 后 面 的 其 他 
操作 不 包括 右 移 或 者 除法 。 可 以 通过 计算 8*sizeof (int) 来 确定 数据 类 型 int 中 的 位 数 w。 位 移 
量 的 取 值 范围 为 0~w 一 1。 

unsigned srl(unsigned x, int k) { 


/* Perform shift arithmetically */ 
unsigned xsra = (int) x >> Ki 


} 
int sra(int x, int k) { 


/* Perform shift logically */ 
int xsrl = (unsigned) x >> Ki 


*2.64 


## 2.65 


** 2. 66 


** 2. 67 


** 2. 68 


** 2. 69 
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写 出 代码 实现 如 下 函数 ; 


/* Return 1 when any odd bit of x equals 1; 0 otherwise. 
Assume w=32 */ 
int any_odd_one (unsigned x); 


函数 应 该 遵循 位 级 整数 编码 规则 ， 不 过 你 可 以 假设 数据 类 型 int 有 w= 二 32 位 。 
写 出 代码 实现 如 下 函数 : 


/* Return 1 when x contains an odd number of 1s; 0 otherwise. 
Assume w=32 */ 
int odd_ones (unsigned x); 


函数 应 该 遵循 位 级 整数 编码 规则 ， 不 过 你 可 以 假设 数据 类 型 int 有 w==32 位 。 
你 的 代码 最 多 只 能 包含 12 个 算术 运算 、 位 运算 和 逻辑 运算 。 
写 出 代码 实现 如 下 函数 : 
/本 
Generate mask indicating leftmost 1 in x. Assume w=32. 
* For examp1e，0xFF00 -> 0x8000，and 0x6600 --> 0x4000 . 
* If x = 0, then return 0. 
*/ 
int leftmost_one(unsigned x); 


函数 应 该 遵循 位 级 整数 编码 规则 ， 不 过 你 可 以 假设 数据 类 型 int 有 w==32 位 。 


你 的 代码 最 多 只 能 包含 15 个 算术 运算 、 位 运算 和 逻辑 运算 。 
提示 : 先 将 x 转换 成 形 如 [0…011…1]j 的 位 向 量 。 


给 你 一 个 任务 ， 编 写 一 个 过 程 int_size is_32()， 当 在 一 个 int 是 32 位 的 机 器 上 运行 时 ， 


序 产生 1， 而 其 他 情况 则 产生 0。 不 允许 使 用 sizeof 运算 符 。 下 面 是 开始 时 的 尝试 ; 


/* The following code does not run properly on some machines */ 
2 int bad_int_size_is_32() { 

3 /* Set most significant bit (msb) of 32-bit machine */ 
4 int set_msb = 1 << 31; 

5 /* Shift past msb of 32-bit word */ 

6 int beyond_msb = 1 << 32; 

7 

8 /* set_msb is nonzero when word size >= 32 

9 beyond_msb is zero when Word size <= 32 */ 

10 return set_msb && !Ibeyond_msb; 

tm } 


该 程 


当 在 SUN SPARC 这 样 的 32 位 机 器 上 编译 并 运行 时 ， 这 个 过 程 返回 的 却 是 0。 下 面 的 编译 器 


信息 给 了 我 们 一 个 问题 的 指示 : 
warning: left Shift count >= width of type 


A. 我 们 的 代码 在 哪个 方面 没有 遵守 C 语言 标准 ? 

B. 修改 代码 ， 使 得 它 在 int 至 少 为 32 位 的 任何 机 器 上 都 能 正确 地 运行 。 
C. 修改 代码 ， 使 得 它 在 int 至 少 为 16 位 的 任何 机 器 上 都 能 正确 地 运行 。 
写 出 具有 如 下 原型 的 函数 的 代码 : 

/* 

* Mask with least signficant n bits set to 1 

* Examples: n = 6 --> Ox3F, n = 17 --> OxlFFFF 

* Assume 1 <= D <= Ww 

*/ 

int Lower_one_mask(int n); 

函数 应 该 遵循 位 级 整数 编码 规则 。 要 注意 n= 一 也 的 情况 。 

写 出 具有 如 下 原型 的 函数 的 代码 : 


** 2.70 


i271 


+ 2. 72 


** 2.73 
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/* 
* Do rotating left shift. Assume 0 <=n<w 
* Examples when x = 0x12345678 and Ww = 32: 
* n=4 -> 0x23456781, n=20 -> 0x67812345 
*/ 
unsigned rotate.left(unsigned x, int n); 
函数 应 该 遵循 位 级 整数 编码 规则 。 要 注意 n=0 的 情况 。 
写 出 具有 如 下 原型 的 函数 的 代码 : 
/* 
* Return 1 when x can be represented as an n-bit, 2's-complement 
* number; 0 otherwise 
* Assume 1 <= n <= Wy 
*/ 
int fits_bits(int x, int n); 
函数 应 该 遵循 位 级 整数 编码 规则 。 
你 刚刚 开始 在 一 家 公司 工作 ， 他 们 要 实现 一 组 过 程 来 操作 一 个 数据 结构 ， 要 将 4 个 有 符号 字 节 封 
装 成 一 个 32 位 unsigned。 一 个 字 中 的 字 节 从 0( 最 低 有 效 字 节 ) 编 号 到 3( 最 高 有 效 字 节 )。 分 配给 
你 的 任务 是 : 为 一 个 使 用 补 码 运算 和 算术 右 移 的 机 器 编写 一 个 具有 如 下 原型 的 函数 
/* Declaration of data type where 4 bytes are packed 


into an unsigned */ 
typedef unsigned packed_t; 


/* Extract byte from word. Return as signed integer */ 

int xbyte(packed_t word, int bytenum); 
也 就 是 说 ， 函 数 会 抽取 出 指定 的 字 节 ， 再 把 它 符号 扩展 为 一 个 32 位 int。 
你 的 前 任 ( 因 为 水 平 不 够 高 而 被 解雇 了 ) 编 写 了 下 面 的 代码 : 


/* Failed attempt at xbyte */ 
int xbyte(packed_t word, int bytenum) 


return (word >> (bytenum << 3)) & OxFF; 
} 
A. 这 段 代码 错 在 哪里 ? 
B. 给 出 函数 的 正确 实现 ， 只 能 使 用 左右 移 位 和 一 个 减法 。 
给 你 一 个 任务 ， 写 一 个 函数 ， 将 整数 val 复制 到 缓冲 区 buf 中 ， 但 是 只 有 当 缓冲 区 中 有 足够 可 用 
的 空间 时 ， 才 执行 复制 。 
你 写 的 代码 如 下 : 


/* Copy integer into buffer if space is available */ 
/* WARNING: The following code is buggy */ 
void copy_int(int val, void *buf, int maxbytes) { 
if (maxbytes-sizeof (val) >= 0) 
memcpy (buf, (void *) &val, sizeof (val)); 


这 段 代码 使 用 了 库 函 数 memcpy。 虽 然 在 这 里 用 这 个 函数 有 点 刻意 ， 因 为 我 们 只 是 想 复制 一 个 
int， 但 是 它 说 明了 一 种 复制 较 大 数据 结构 的 常见 方法 。 

你 仔细 地 测试 了 这 段 代 码 后 发 现 ， 哪 怕 maxbytes 很 小 的 时 候 ， 它 也 能 把 值 复制 到 缓冲 区 中 。 
A. 解释 为 什么 代码 中 的 条 件 测试 总 是 成 功 。 提 示 : sizeof 运算 符 返 回 类 型 为 size t 的 值 。 
B. 你 该 如 何 重 写 这 个 条 件 测试 ， 使 之 工作 正确 。 
写 出 具有 如 下 原型 的 函数 的 代码 : 


/* Addition that saturates to TMin or TMax */ 
int saturating_add(int x, int y); 
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** 2.74 


t# 2. 75 


* 2.76 


** 2.77 


** 2.78 


** 2. 79 


xx 2. 80 


** 2. 81 
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同 正 常 的 补 码 加 法 溢出 的 方式 不 同 ， 当 正 溢出 时 ， 饱 和 加 法 返回 TMaz， 负 溢出 时 ， 返回 
TMin。 饱 和 运算 常常 用 在 执行 数字 信号 处 理 的 程序 中 。 

你 的 函数 应 该 遵循 位 级 整数 编码 规则 。 
写 出 具有 如 下 原型 的 函数 的 代码 : 


/* Determine whether arguments can be subtracted without overflow */ 
int tsub_ok(int x, int y); 

如 果 计 算 x-y 不 溢出 ， 这 个 函数 就 返回 1。 
假设 我 们 想 要 计算 zx。y 的 完整 的 2w 位 表示 ， 其 中 ，z 和 y 都 是 无 符号 数 ， 并 且 运 行 在 数据 类 型 
unsigned 是 世人 位 的 机 器 上 。 乘 积 的 低 也 位 能 够 用 表达 式 x*y 计算 ， 所 以 ， 我 们 只 需要 一 个 具有 
下 列 原型 的 函数 : 


unsigned unsigned_high_prod(unsigned x, unsigned y); 


这 个 函数 计算 无 符号 变量 x。y 的 高 记 位 。 
我 们 使 用 一 个 具有 下 面 原型 的 库 函 数 : 
int signed_high_prod(int x, int y) ; 


它 计 算 在 zx 和 >y 采用 补 码 形式 的 情况 下 ，z。y 的 高 ww 位。 编写 代码 调用 这 个 过 程 ， 以 实现 用 无 符 
号 数 为 参数 的 函数 。 验 证 你 的 解答 的 正确 性 。 

提示 : 看 看 等 式 (2. 18) 的 推导 中 ， 有 符号 乘积 z+。 y 和 无 符号 乘积 zx'。y 之 间 的 关系 。 
库 函 数 calloc 有 如 下 声明 : 


void *calloc(size_t nmemb，size_t size); 


根据 库 文 档 :“ 函 数 calloc 为 一 个 数组 分 配 内 存 ， 该 数组 有 nmemb 个 元 素 ， 每 个 元 素 为 size 字 
节 。 内 存 设置 为 0。 如 果 nmemb 或 size 为 0， 则 calloc 返 回 NULL。” 

编写 calloc 的 实现 ， 通 过 调用 malloc 执行 分 配 ， 调 用 memset 将 内 存 设置 为 0。 你 的 代码 应 
该 没有 任何 由 算术 溢出 引起 的 漏洞 ， 且 无 论 数 据 类 型 size_t 用 多 少 位 表示 ， 代 码 都 应 该 正常 
工作 5 

作为 参考 ， 函 数 malloc 和 memset 声明 如 下 : 


void *malloc(size_t size) ; 
void *memset (void *s, int c, size_t D) ; 
假设 我 们 有 一 个 任务 : 生成 一 段 代码 ， 将 整数 变量 x 乘 以 不 同 的 常数 因子 K。 为 了 提高 效率 ， 我 
们 想 只 使 用 十 、 一 和 < 委 运 算 。 对 于 下 列 天 的 值 ， 写 出 执行 乘法 运算 的 C 表达 式 ， 每 个 表达 式 中 
最 多 使 用 3 个 运算 。 
A.K=17 
B. K=—7 
C. K=60 
D. K=—112 
写 出 具有 如 下 原型 的 函数 的 代码 : 
/* Divide by power of 2. Assume 0 <= k < Vw-1 */ 
int divide_power2(int x, int K) ; 
该 函数 要 用 正确 的 伟人 方式 计算 z/2 ， 并 且 应 该 遵循 位 级 整数 编码 规则 。 
写 出 函数 mul3div4 的 代码 ， 对 于 整数 参数 x， 计 算 3*x/4， 但 是 要 遵循 位 级 整数 编码 规则 。 你 的 
代码 计算 3*x 也 会 产生 溢出 。 
写 出 函数 threefourths 的 代码 ， 对 于 整数 参数 x， 计 算 3/4x 的 值 ， 向 零售 人 。 它 不 会 溢出 。 郴 
数 应 该 遵循 位 级 整数 编码 规则 。 
编写 C 表达 式 产生 如 下 位 模式 ， 其 中 a* 表 示 符 号 a 重复 & 次 。 假 设 一 个 也 位 的 数据 类 型 。 代 码 可 
以 包含 对 参数 ] 和 k 的 引用 ， 它 们 分 别 表示 7 和 & 的 值 ， 但 是 不 能 使 用 表示 w 的 参数 。 
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A 0 
B. 0 #7i1*0i 
我 们 在 一 个 int 类 型 值 为 32 位 的 机 器 上 运行 程序 。 这 些 值 以 补 码 形式 表示 ， 而 且 它 们 都 是 算术 右 
移 的 。unsigned 类 型 的 值 也 是 32 位 的 。 
我 们 产生 随机 数 x 和 y， 并 且 把 它们 转换 成 无 符号 数 ， 显 示 如 下 : 


/* Create some arbitrary values */ 
int x = random(); 

int y = random(); 

/* Convert to unsigned */ 

unsigned ux = (unsigned) Xi 
unsigned uy = (unsigned) y; 

对 于 下 列 每 个 C 表 达 式 ， 你 要 指出 表达 式 是 否 总 是 为 1。 如 果 它 总 是 为 1， 那 么 请 描述 其 中 的 
数学 原理 。 否 则 ， 列 举 出 一 个 使 它 为 0 的 参数 示例 。 
A. (xX<Yy)== (-xX>-y) 

B. ((xty)<<4)+y-x==17*y+15*x 
C. ‘x+ yt1l== (x+y) 
D. (ux-uy)==- (unsigned) (y-x) 
E, ((x>>2) <<2) <=x 


一 些 数字 的 二 进 制 表示 是 由 形 如 0. yy y y y y… 的 无 穷 串 组 成 的 ， 其 中 y 是 一 个 位 的 序列 。 例 
如 ， 训 的 二 进 制 表示 是 0. 01010101…(y= 01)， 而 二 的 二 进 制 表示 是 0.001100110011… (一 


0011) 。 
A. 设 Y==B2Ui(y)， 也 就 是 说 ， 这 个 数 具有 二 进 制 表示 y。 给 出 一 个 由 Y 和 k 组 成 的 公式 表示 这 
个 无 穷 串 的 值 。 
提示 : 请 考虑 将 二 进 制 小 数 点 右 移 & 位 的 结果 。 
B, 对 于 下 列 的 y 值 ， 串 的 数值 是 多 少 ? 
(a)101 
(b)0110 
(c)010011 
填写 下 列 程序 的 返回 值 ， 这 个 程序 测试 它 的 第 一 个 参数 是 否 小 于 或 者 等 于 第 二 个 参数 。 假 定 函数 
f2u 返回 一 个 无 符号 32 位 数字 ， 其 位 表示 与 它 的 浮 点 参数 相同 。 你 可 以 假设 两 个 参数 都 不 是 
NaN。 两 种 0， 十 0 和 一 0 被 认为 是 相等 的 。 


int float_le(float x, float y) { 
unsigned ux = f2u(x); 
unsigned uy = f2u(y); 


/* Get the sign bits */ 
unsigned sx = ux >> 31; 
unsigned sy = uy >> 31; 


/* Give an expression using only ux, uy, sx, and sy */ 
return ; 


} 


给 定 一 个 浮 点 格式 ， 有 上 位 指数 和 位 小 数 ， 对 于 下 列 数 ， 写 出 阶 码 E、 尾 数 M、 小 数 f 和 值 V 
的 公式 。 另 外 ， 请 描述 其 位 表示 。 

A. 数 7.0。 

B. 能 够 被 准确 描述 的 最 大 奇 整数 。 

C. 最 小 的 规格 化 数 的 倒数 。 

与 Intel 兼容 的 处 理 器 也 支持 “扩展 精度 ” 浮 点 形式 ， 这 种 格式 具有 80 位 字 长 ， 被 分 成 1 个 符号 
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位 、& 王 15 个 阶 码 位 、1 个 单独 的 整数 位 和 n= 二 63 个 小 数位 。 整 数位 是 IEEE 浮 点 表示 中 隐 含 位 的 
显 式 副 本 。 也 就 是 说 ， 对 于 规格 化 的 值 它 等 于 1， 对 于 非 规格 化 的 值 它 等 于 0。 填 写 下 表 ， 给 出 用 
这 种 格式 表示 的 一 些 “ 有 趣 的 ”数字 的 近似 值 。 
扩展 精度 
术 
sR 值 十 进 制 

最 小 的 正规 格 化 数 | | 

最 大 的 规格 化 数 | | 

将 数据 类 型 声明 为 long double， 就 可 以 把 这 种 格式 用 于 为 与 Intel 兼容 的 机 器 编译 C 程序 。 
但 是 ， 它 会 强制 编译 器 以 传统 的 8087 浮 点 指令 为 基础 生成 代码 。 由 此 产生 的 程序 很 可 能 会 比 数据 
类 型 为 float 或 double 的 情况 慢 上 许多 。 

* 2.87 ”2008 版 IEEE 浮 点 标准 ， 即 IEEE 754-2008， 包 含 了 一 种 16 位 的 “ 半 精 度 ” 浮 点 格式 。 它 最 初 是 
由 计算 机 图 形 公 司 设计 的 ， 其 存储 的 数据 所 需 的 动态 范围 要 高 于 16 位 整数 可 获得 的 范围 。 这 种 格 
式 具有 1 个 符号 位 、5 个 阶 码 位 (& 一 5) 和 10 个 小 数位 (n==10)。 阶 码 偏 置 量 是 25-: 一 1 一 15。 

对 于 每 个 给 定 的 数 ， 填 写 下 表 ， 其 中 ， 每 一 列 具 有 如 下 指示 说 明 : 

Hex: 描述 编码 形式 的 4 个 十 六 进 制 数字 。 

M: 尾数 的 值 。 这 应 该 是 一 个 形 如 z 或 > 的 数 ， 其 中 并 是 一 个 整数 ， 而 > 是 2 的 整数 寡 。 例 

67 
如 : OK 1 和 56° 

五 : 阶 码 的 整数 值 。 

V: 所 表示 的 数字 值 。 使 用 zz 或 者 xX2: 表示 ， 其 中 zx 和 > 都 是 整数 。 

D: (可 能 近似 的 ) 数 值 ， 用 printf 的 格式 规范 $f 打印 。 

举 一 个 例子 ,为 了 表示 数 主 , 我 人 有 s 一 0，M 一 了 和 = 一 1。 因 此 这 个 数 的 阶 码 字段 为 
01110; (十 进 制 值 15 一 1 二 14)， 尾 数字 段 为 1100000000* ， 得 到 一 个 十 六 进 制 的 表示 3B00。 其 数值 
池 ' 人 55 

标记 为 “一 ”的 条 目 不 用 填写 。 

M E V D 
一 各 Ts 可 
| 最 小 的 >2 的 值 
| S12 | §12 512.© 
最 大 的 非 规格 化 数 | 
十 六 进 制 表示 为 3BB0 的 数 | 
** 2.88 考虑 下 面 两 个 基于 IEEE 浮 点 格式 的 9 位 浮 点 表示 。 


1. 格式 A 
e 有 一 个 符号 位 。 
e 有 一 5 个 阶 码 位 。 阶 码 偏 置 量 是 15。 
e 有 "一 3 个 小 数位 。 
2. 格式 B 
e 有 一 个 符号 位 。 
e 有 一 4 个 阶 码 位 。 阶 码 偏 置 量 是 7。 
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@ 有 ?一 4 个 小 数位 。 
下 面 给 出 了 一 些 格式 A 表示 的 位 模式 ， 你 的 任务 是 把 它们 转换 成 最 接近 的 格式 B 表示 的 值 。 
如 果 需 要 伟人 ， 你 要 向 十 ce 伟人 。 另 外 ， 给 出 用 格式 A 和 格式 B 表示 的 位 模式 对 应 的 值 。 要 么 是 
整数 (例如 17)， 要 么 是 小 数 ( 例 如 17/64 或 17/2 ) 。 


一 Rn 


Lu | -= | 












序 


1 0110 0010 







0 00000 101 
1 117011 ‘00 
0 11000 100 


+2.89 我 们 在 一 个 int 类 型 为 32 位 补 码 表示 的 机 器 上 运行 程序 。float 类 型 的 值 使 用 32 位 IEEE 格式 ， 
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而 double 类 型 的 值 使 用 64 位 IEEE 格式 。 
我 们 产生 随机 整数 x、y 和 z， 并 且 把 它们 转换 成 double 类 型 的 值 : 


/* Create some arbitrary Values */ 
int x = random(); 

int y = random() ; 

int Z = random(); 

/* Convert to double */ 

double dx = (double) x; 

double dy = (double) y; 

double dz = (double) 2; 


对 于 下 列 的 每 个 C 表达 式 ， 你 要 指出 表达 式 是 否 总 是 为 1。 如 果 它 总 是 为 1， 描述 其 中 的 数学 
原理 。 否 则 ， 列 举 出 使 它 为 0 的 参数 的 例子 。 请 注意 ， 不 能 使 用 IA32 机 器 运行 GCC 来 测试 你 的 
答案 ， 因 为 对 于 float 和 double， 它 使 用 的 都 是 80 位 的 扩展 精度 表示 。 

A. (float)x==(float)dx 


“ B. dx-dy==(double) (x-y) 


C. (dxtdy) +dz==dx+ (dy+dz) 

D. (dx*dy)*dz==dx* (dy*dz) 

E. dx/dx==dz/dz 

分 配给 你 一 个 任务 ， 编 写 一 个 C 函数 来 计算 2 的 浮 点 表示 。 你 意识 到 完成 这 个 任务 的 最 好 方法 是 
直接 创建 结果 的 IEEE 单 精度 表示 。 当 x 太 小 时 ， 你 的 程序 将 返回 0.0。 当 x 太 大 时 ， 它 会 返回 
十 oo。 填写 下 列 代码 的 空白 部 分 ， 以 计算 出 正确 的 结果 。 假 设 洋 数 u2f 返回 的 浮 点 值 与 它 的 无 符 
号 参数 有 相同 的 位 表示 。 


float fpwr2(int x) 

{ 
/* Result exponent and fraction */ 
unsigned exp, frac; 
unsigned u; 


if (x< 区 过 
/* Too small. Return 0.0 */ 
exp = 2 
frac= 

} else if (x < i 
/* Denormalized result */ 
exp = 
frac = 
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} else if (x < Se 
/* Normalized result. */ 
RE 
frac = 

} else { 
/* Too big. Return +oo */ 
exp = 
frac = 


} 


/* Pack exp and frac into 32 bits */ 
u= exp << 23 | frac; 

/* Return as float */ 

return u2f (u); 


} 


* 2.91 大 约 公元 前 250 年 ， 希 腊 数 学 家 阿 基 米 德 证 明了 2 芋 <x<< 休 。 如 果 当时 有 一 台 计算 机 和 标准 库 
< math.h>， 他 就 能 够 确定 x 的 单 精度 浮 点 近似 值 的 十 六 进 制 表示 为 0x40490FDB。 当 然 ， 所 有 的 
这 些 都 只 是 近似 值 ， 因 为 x 不 是 有 理 数 。 
A. 这 个 浮 点 值 表示 的 二 进 制 小 数 是 多 少 ? 


B. 好 的 二 进 制 小 数 表示 是 什么 ? 提示 : 参见 家 庭 作业 2. 83。 


C. 这 两 个 r 的 近似 值 从 哪 一 位 (相对 于 二 进 制 小 数 点 ) 开 始 不 同 的 ? 
位 级 浮 点 编码 规则 
在 接 下 来 的 题目 中 ， 你 所 写 的 代码 要 实现 浮 点 函数 在 浮 点 数 的 位 级 表示 上 直接 运算 。 你 的 代码 应 该 
完全 遵循 IEEE 浮 点 运算 的 规则 ， 包 括 当 需要 舍 入 时 ， 要 使 用 向 偶数 会 人 的 方式 。 
为 此 ， 我 们 把 数据 类 型 float-bits 等 价 于 unsigned: 


/* Access bit-level representation floating-point number */ 
typedef unsigned float_bits; 


你 的 代码 中 不 使 用 数据 类 型 float， 而 要 使 用 float bits。 你 可 以 使 用 数据 类 型 int 和 unsigned， 
包括 无 符号 和 整数 常数 和 运算 。 你 不 可 以 使 用 任何 联合 、 结 构 和 数组 。 更 重要 的 是 ， 你 不 能 使 用 任何 浮 
点 数据 类 型 、 运 算 或 者 常数 。 取 而 代 之 ,你 的 代码 应 该 执行 实现 这 些 指定 的 浮 点 运算 的 位 操作 。 

下 面 的 函数 说 明了 对 这 些 规则 的 使 用 。 对 于 参数 f， 如 果 f 是 非 规 格 化 的 ， 该 函数 返回 土 0( 保 持 f 
的 符号 ) ， 和 否则， 返回 f。 


/* If f is denorm, return 0. Otherwise, return f */ 
float_bits float_denorm_zero(float_bits f) { 
/* Decompose bit representation into parts */ 
unsigned sign = f>>31; 
unsigned exp = f>>23 & OxFF; 
unsigned frac = 工 & OXx7FFFFF; 
if (exp == 0) { 
/* Denormalized. Set fraction to 0 */ 
frac = 0; 
上 
/* Reassemble bits */ 
return (sign << 31) | (exp << 23) | frac; 
} 


** 2.92 遵循 位 级 浮 点 编码 规则 ， 实 现 具有 如 下 原型 的 函数 : 


/* Compute -f. If f is NaN, then return f. */ 
float_bits float_negate(float_bits f) ; 


对 于 浮 点 数 f， 这 个 函数 计算 一 f/。 如 果 f 是 NaN， 你 的 函数 应 该 简单 地 返回 f。 
测试 你 的 函数 ， 对 参数 上 可 以 取 的 所 有 2” 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 结果 


*# 2, 93 


村 2.94 


村 2.95 


村 2.96 
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相 比较 。 

遵循 位 级 浮 点 编码 规则 ， 实 现 具有 如 下 原型 的 函数 : 

/* Compute |f|. If f is NaN, then return f. */ 

float_bits float._absval (float_bits f); 
对 于 浮 点 数 f， 这 个 函数 计算 |f|。 如 果 f 是 NaN， 你 的 函数 应 该 简单 地 返回 f。 
测试 你 的 函数 ， 对 参数 f 可 以 取 的 所 有 2” 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 

结果 相 比 较 。 

遵循 位 级 浮 点 编码 规则 ， 实 现 具有 如 下 原型 的 函数 : 

/* Compute 2*f. If f is NaN, then return f. */ 

float_bits float_twice(float_bits f); 
对 于 浮 点 数 f， 这 个 函数 计算 2.0。f。 如 果 f 是 NaN， 你 的 函数 应 该 简单 地 返回 f。 
测试 你 的 函数 ， 对 参数 f 可 以 取 的 所 有 2” 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 

结果 相 比 较 。 

遵循 位 级 浮 点 编码 规则 ， 实 现 具 有 如 下 原型 的 函数 : 

/* Compute 0.5*f. If f is NaN, then return f. */ 

float_bits float_half (float_bits f£); 
对 于 浮 点 数 f， 这 个 函数 计算 0.5，f。 如 果 是 NeN， 你 的 函数 应 该 简单 地 返回 f。 
测试 你 的 函数 ， 对 参数 f 可 以 取 的 所 有 2” 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 

结果 相 比 较 。 

遵循 位 级 浮 点 编码 规则 ， 实 现 具有 如 下 原型 的 函数 : 

/* 

* Compute (int) f£. 

* If conversion causes overflow or f is NaN, return Ox80000000 


*/ 
int float_f2i(float_bits f£); 


对 于 浮 点 数 f， 这 个 函数 计算 (int)f。 如 果 f 是 NaN， 你 的 函数 应 该 向 零 合 和 信 。 如 果 f 不 能 


。 用 整数 表示 (例如 ， 超 出 表示 范围 ， 或 者 它 是 一 个 NeN)， 那 么 函数 应 该 返回 0x80000000。 


#42.97 


测试 你 的 函数 ， 对 参数 可 以 取 的 所 有 2” 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 
结果 相 比 较 。 
遵循 位 级 浮 点 编码 规则 ， 实 现 具有 如 下 原型 的 函数 ， 


/* Compute (float) i */ 
float_bits float_i2f (int i); 


对 于 函数 i， 这 个 函数 计算 (float) i 的 位 级 表示 。 
测试 你 的 函数 ， 对 参数 f 可 以 取 的 所 有 22 个 值 求 值 ， 将 结果 与 你 使 用 机 器 的 浮 点 运算 得 到 的 
结果 相 比 较 。 


练习 题 答案 


2.1 


在 我 们 开始 查看 机 器 级 程序 的 时 候 ， 理 解 十 六 进 制 和 二 进 制 格式 之 间 的 关系 将 是 很 重要 的 。 虽 然 本 
书 中 介绍 了 完成 这 些 转换 的 方法 ， 但 是 做 点 练习 能 够 让 你 更 加 熟练 。 
A. 将 0x39A7F8 转换 成 二 进 制 ， 


十 六 进 制 3 9 A 7 F 8 

二 进 制 0011 1001 1010 0111 1111 1000 
B. 将 二 进 制 1100100101111011 转换 成 十 六 进 制 : 

二 进 制 1100 1001 O111 1011 


十 六 进 制 EG 9 囊 B 


98 


2 


2 


包 .4 
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C. 将 0xD5E4C 转换 成 二 进 制 : 


十 六 进 制 D 5 E 4 a 
二 进 制 1101 0101 1110 0100 1100 
D. 将 二 进 制 1001101110011110110101 转换 成 十 六 进 制 : 
二 进 制 10 0110 1 0111 1011 0101 
十 六 进 制 2 6 E 7 B :> 


这 个 问题 给 你 一 个 机 会 思考 2 的 宕 和 它们 的 十 六 进 制 表示 。 


2 〈 十 六 进 制 ) 








这 个 问题 给 你 一 个 机 会 试 着 对 一 些小 的 数 在 十 六 进 制 和 十 进 制 表示 之 间 进 行 转换 。 对 于 较 大 的 数 ， 
使 用 计算 器 或 者 转换 程序 会 更 加 方便 和 可 靠 。 


一 | um To 
一 ao ao To 
人 ee oo | 
一 rm au To 
人 era | oo 















当 开始 调试 机 器 级 程序 时 ， 你 将 发 现在 许多 情况 中 ， 一 些 简 单 的 十 六 进 制 运算 是 很 有 用 的 。 可 以 总 

是 把 数 转换 成 十 进 制 ， 完 成 运算 ， 再 把 它们 转换 回来 ， 但 是 能 够 直接 用 十 六 进 制 工作 更 加 有 效 ， 而 

且 能 够 提供 更 多 的 信息 。 

A. 0x503c+0x8=0x5044。8 加 上 十 六 进 制 c 得 到 4 并 且 进 位 1。 

B. 0x503c-0x40=0x4ffc。 在 第 二 个 数位 ，3 减 去 4 要 从 第 三 位 借 1。 因 为 第 三 位 是 0， 所 以 我 们 必 
须 从 第 四 位 借 位 。 

C. 0x503c+64=0x507c。 十 进 制 64(2 ) 等 于 十 六 进 制 0x40。 

D. 0x50ea-0x503c=0xae。 十 六 进 制 数 a( 十 进 制 10) 减 去 十 六 进 制 数 c( 十 进 制 12)， 我们 从 第 二 位 
借 16， 得 到 十 六 进 制 数 e( 十 进 制 数 14) 。 在 第 二 个 数位 ， 我 们 现在 用 十 六 进 制 d( 十 进 制 13) 减 
去 3， 得 到 十 六 进 制 a( 十 进 制 10) 。 

这 个 练习 测试 你 对 数据 的 字 节 表 示 和 两 种 不 同 字 节 顺序 的 理解 。 






小 端 法 : 21 大 端 法 : 87 
小 端 法 : 21 43 大 端 法 : 87 65 
小 端 法 : 21 43 65 大 端 法 : 87 65 43 


回想 一 下 ，show_bytes 列举 了 一 系列 字 节 ， 从 低位 地 址 的 字 节 开始 ， 然 后 逐一 列 出 高 位 地 址 的 字 





节 。 在 小 端 法 机 器 上 ， 它 将 按照 从 最 低 有 效 字 节 到 最 高 有 效 字 节 的 顺序 列 出 字 节 。 在 大 端 法 机 器 
上 ， 它 将 按照 从 最 高 有 效 字 节 到 最 低 有 效 字 节 的 顺序 列 出 字 节 。 

2.6 这 又 是 一 个 练习 从 十 六 进 制 到 二 进 制 转换 的 机 会 。 同 时 也 让 你 思考 整数 和 浮 点 表示 。 我 们 将 在 本 章 
后 面 更 加 详细 地 研究 这 些 表示 。 
A. 利用 书 中 示例 的 符号 ， 我 们 将 两 个 串 写 成 : 


0 0 3 5 9 1 4 1 
00000000001101011001000101000001 
六 永 六 六 六 六 冰冰 六 六 冰 闵 冰冰 玉 冰 六 冰 六 冰冰 


4 A 5 6 4 5 0 4 
01001010010101100100010100000100 
B. 将 第 二 个 字 相 对 于 第 一 个 字 向 右 移动 2 位 ， 我 们 发 现 一 个 有 21 个 匹配 位 的 序列 。 
C. 我 们 发 现 除 了 最 高 有 效 位 1， 整 数 的 所 有 位 都 贬 在 浮 点 数 中 。 这 正好 也 是 书 中 示例 的 情况 。 另 
外 ， 浮 点 数 有 一 些 非 零 的 高 位 不 与 整数 中 的 高 位 相 匹 配 。 
2.7 它 打印 61 62 63 64 65 66。 回 想 一 下 ， 库 函数 strlen 不 计算 终止 的 空 字符 ， 所 以 show_ 
bytes 只 打印 到 字符 “f£? 
2.8 这 是 一 个 帮助 你 更 加 熟悉 布尔 运算 的 练习 。 












| 
| 
EE | om 
on | 
TE 7 


2.9 这 个 问题 说 明了 怎样 用 布尔 代数 来 描述 和 解释 现实 世界 的 系统 。 我 们 能 够 看 到 这 个 颜色 代数 和 长 度 
为 3 的 位 向 量 上 的 布尔 代数 是 一 样 的 。 
A. 颜色 的 取 补 是 通过 对 尺 、G 和 B 的 值 取 补 得 到 的 。 由 此 ， 我 们 可 以 看 出 ， 和 白色 是 黑色 的 补 ， 黄 
色 是 蓝 色 的 补 ， 红 紫色 是 绿色 的 补 ， 蓝 绿色 是 红色 的 补 。 
B. 我 们 基于 颜色 的 位 向 量 表示 来 进行 布尔 运算 。 据 此 ， 我 们 得 到 以 下 结果 





蓝 色 (001) | 绿色 (010) = 蓝 绿色 (011) 
黄色 (110) & 蓝 绿色 (011)= 绿色 (010) 
红色 (100) ^ 紫红 色 (101)= 蓝 色 (001) 


2.10 ”这 个 程序 依赖 于 两 个 事实 ，EXCILUSIVE-OR 是 可 交换 的 和 可 结合 ， 以 及 对 于 任意 的 a， 有 a“a==0。 


YET 
5 | 





某 种 情况 下 这 个 函数 会 失败 ， 参 见 练习 题 2. 11 。 
2.11 这 个 题目 说 明了 我 们 的 原 地 交换 例 程 微妙 而 有 趣 的 特性 。 
A. first 和 1last 的 值 都 为 &， 所 以 我 们 试图 交换 正中 间 的 元 素 和 它 自 己 。 
B. 在 这 种 情况 中 ，inplace_swap 的 参数 x 和 y 都 指向 同一 个 位 置 。 当 计算 *x^*y 的 时 候 ， 我 们 
得 到 0。 然后 将 0 作为 数组 正中 间 的 元 素 ， 而 后 面 的 步骤 一 直 都 把 这 个 元 素 设 置 为 0。 我 们 可 
以 看 到 ， 练 习题 2. 10 的 推理 隐 含 地 假设 x 和 y 代表 不 同 的 位 置 。 
C. 将 reverse array 的 第 4 行 的 测试 简单 地 替换 成 first<last， 因 为 没有 必要 交换 正中 间 的 元 
素 和 它 自己 。 
2. 12 这些 表 达 式 如 下 : 


了 00 


2 13 


2 16 
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A. x & OxFF 

B. x^~OxFF 

C. x | OxFF 

这 些 表达 式 是 在 执行 低级 位 运算 中 经 常 发 现 的 典型 类 型 。 表 达 式 ~0xFF 创建 一 个 掩 码 ， 该 掩 码 8 
个 最 低位 等 于 0， 而 其 余 的 位 为 1。 可 以 观察 到 ， 这 些 掩 码 的 产生 和 字 长 无 关 。 而 相 比 之 下 ， 表 达 
式 0xFFFFFF00 只 能 工作 在 32 位 的 机 器 上 。 

这 个 问题 帮助 你 思考 布尔 运算 和 程序 员 应 用 掩 码 运算 的 典型 方式 之 间 的 关系 。 代 码 如 下 : 


/* Declarations of functions implementing operations bis and bic */ 
int bis(int x, int m); 
int bic(int x, int m); 


/* Compute xly using only calls to functions bis and bic */ 
int bool_or(int x, int y) { 

int result = bis(x,y); 

return result; 


下 


/* Compute x’y Using only calls to functions bis and bic */ 
int bool_xor(int x, int y) { 

int result = bis(bic(x,y), bic(y,x)); 

return result; 


} 


bis 运算 等 价 于 布尔 OR 一 一 如 果 x 中 或 者 m 中 的 这 一 位 置 位 了 ， 那 么 z 中 的 这 一 位 就 置 位 。 
男 一 方面 ，bic (x, m) 等 价 于 x&~m; 我 们 想 实现 只 有 当 x 对 应 的 位 为 1 且 m 对 应 的 位 为 0 时， 该 位 
等 于 1。 
由 此 ， 可 以 通过 对 bis 的 一 次 调用 来 实现 | 。 为 了 实现 ~， 我 们 利用 以 下 属性 
Ze^y 一 (z&~y) |(~z&y) 
这 个 问题 突出 了 位 级 布尔 运算 和 C 语言 中 的 逻辑 运算 之 间 的 关系 。 常 见 的 编程 错误 是 在 想 用 逻辑 
运算 的 时 候 用 了 位 级 运算 ,或 者 反 过 来 。 





这 个 表达 式 是 !(x ^ y)。 

也 就 是 ， 当 且 仅 当 x 的 每 一 位 和 y 相应 的 每 一 位 匹配 时 ，x“^ y 等 于 零 。 然 后 ， 我 们 利用 ! 来 
判定 一 个 字 是 否 包 含 任何 非 零 位 。 

没有 任何 实际 的 理由 要 去 使 用 这 个 表达 式 ， 因 为 可 以 简单 地 写成 x==y, 但 是 它 说 明了 位 级 运 
算 和 逻辑 运算 之 间 的 一 些 细微 差别 。 
这 个 练习 可 以 帮助 你 理解 各 种 移 位 运算 。 


(逻辑 ) (算术 ) 


X>>2 X>>2 


十 六 进 制 。 二 进 制 二 进 制 ”十 六 进 制 | 二进制 ”十 六 进 制 | 二 进 制 。 十 六 进 制 


X<<3 


[11000011] [00011000] 0x18 [00110000] 0x30 | [11110000] 0xF0 
[01110101] [10101000] 0xA8 [00011101] 0x1l1D | {00011101] “0x1D 
[10000111] [00111000] 0x38 [00100001] 0x21 | [11100001] OxE1 
[01100110] {00110000] 0x30 [00011001] 0x19 | [00011001] 0x19 





2 


2.19 


| 
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一 般 而 言 ， 研 究 字 长 非常 小 的 例子 是 理解 计算 机 运算 的 非常 好 的 方法 。 
无 符号 值 对 应 于 图 2-2 中 的 值 。 对 于 补 码 值 ， 十 六 进 制 数字 0~? 的 最 高 有 效 位 为 0， 得 到 非 
负 值 ， 然 而 十 六 进 制 数字 8~E 的 最 高 有 效 位 为 1， 得 到 一 个 为 负 的 值 。 





页 


x 


We B2U. | B2T 区 
十 六 进 制 。 二进制 ed ee 


[1110] | -23+2+2!=-2 
[0000] 0 0 


[0101] 22+20=5 22+20=5 
[1000] 23=8 -23 = 一 8 

[1101] 2 = 
[LU 0 a ll ee | 





对 于 32 位 的 机 器 ， 由 8 个 十 六 进 制 数字 组 成 的 ， 且 开始 的 那个 数字 在 8~f 之 间 的 任何 值 ， 都 是 
一 个 负数 。 数 字 以 串 f 开头 是 很 普遍 的 事情 ， 因 为 负数 的 起 始 位 全 为 1。 不 过， 你 必须 看 仔细 了 。 
例如 ， 数 0x8048337 仅仅 有 7 个 数字 。 把 起 始 位 填 人 0， 从 而 得 到 0x08048337， 这 是 一 个 正 数 。 


4004d0: 48 81 ec e0 02 00 00 sub $0x2e0,%rsp A. 736 
4004d7: 48 8b 44 24 a8 mov -0x58(%rsp),%rax B. -88 
4004dc: 48 03 47 28 add 0x28(%rdi),%rax C，40 
4004e0: 48 89 44 24 d0 mov  %rax,-0x30(%rsp) D. -48 
4004e5: 48 8b 44 24 78 mov Ox78(%rsp),%rax E; 120 
4004ea: 48 89 87 88 00 00 00 mov  %rax,O0x88(%rdi) F. 136 
4004f1: 48 8b 84 24 f8 01 00 mov Oxif8(%rsp),%rax G. 504 
4004f8: 00 

4004f9: 48 03 44 24 08 add Ox8(%rsp),%rax 

4004fe: 48 89 84 24 c0 00 00 mov  %rax,O0xc0(%rsp) H. 192 
400505: 00 

400506: 48 8b 44 d4 b8 mov -Ox48(%rsp,%rdx,8),%rax I. -72 


从 数学 的 视角 来 看 ， 函 数 T2U 和 U2T 是 非常 奇特 的 。 理 解 它们 的 行为 非常 重要 。 
我 们 根据 补 码 的 值 解 答 这 个 问题 ， 重 新 排列 练习 题 2. 17 的 解答 中 的 行 ， 然 后 列 出 无 符号 值 作 
为 函数 应 用 的 结果 。 我 们 展示 十 六 进 制 值 ， 以 使 这 个 过 程 更 加 具体 。 


一 8 8 






这 个 练习 题 测试 你 对 等 式 (2. 5) 的 理解 。 

对 于 前 4 个 条 目 ，z 的 值 是 负 的 ， 并 且 T2U, (zx) 二 x 十 2: 。 对 于 剩 下 的 两 个 条 目 ，zx 的 值 是 非 
负 的 ， 并 且 T2U, (w= 
这 个 问题 加 强 你 对 补 码 和 无 符号 表示 之 间 关 系 的 理解 ， 以 及 对 C 语言 升级 规则 (promotion rule) 的 
影响 的 理解 。 回 想 一 下 ，TMinsz 是 一 2 147 483 648， 并 且 将 它 强制 类 型 转换 为 无 符号 数 后 ， 变 成 
了 2147483 648。 另 外 ， 如 果 有 任何 一 个 运算 数 是 无 符号 的 ， 那 么 在 比较 之 前 ， 另 一 个 运算 数 会 
被 强制 类 型 转换 为 无 符号 数 。 





-2147483647-1 == 2147483648U 
-2147483647-1 < 2147483647 


-2147483647-1U < 2147483647 


-2147483647-1 < -2147483647 
-2147483647-1U < -2147483647 








了 02 


.22 


2. 24 


2:25 
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这 个 练习 很 具体 地 说 明了 符号 扩展 如 何 保持 一 个 补 码 表示 的 数值 。 


A. [1011]: i 一 8 十 2 二 一 和 
卫 . [11011] : 天 —]6 中 8 中 2 了 4 一 站 
CG. Lib10LL]: 2 二 222 二 十 168 二 2 二 1 二 


这 些 函 数 的 表达 式 是 常见 的 程序 “习惯 用 语 ”， 可 以 从 多 个 位 字段 打包 成 的 一 个 字 中 提取 值 。 它 们 
利用 不 同 移 位 运算 的 零 填充 和 符号 扩展 属性 。 请 注意 强制 类 型 转换 和 移 位 运算 的 顺序 。 在 funl 
中 ， 移 位 是 在 无 符号 word 上 进行 的 ， 因 此 是 逻辑 移 位 。 在 fun2 中 ， 移 位 是 在 把 word 强制 类 型 
转换 为 int 之 后 进行 的 ， 因 此 是 算术 移 位 。 


A. 


0x00000076 0x00000076 0x00000076 


0x87654321 0x00000021 0x00000021 
0x000000C9 0x000000C9 OXxFFFFFFC9 
0xEDCBA987 0x00000087 OXxFFFFFF87 





B. 函数 funl 从 参数 的 低 8 位 中 提取 一 个 值 ， 得 到 范围 0 一 255 的 一 个 整数 。 函 数 fun2 也 从 这 个 
参数 的 低 8 位 中 提取 一 个 值 ， 但 是 它 还 要 执行 符号 扩展 。 结 果 将 是 介 于 一 128 一 127 的 一 个 数 。 
对 于 无 符号 数 来 说 ， 截 断 的 影响 是 相当 直观 的 ， 但 是 对 于 补 码 数 却 不 是 。 这 个 练习 让 你 使 用 非常 

小 的 字 长 来 研究 它 的 属性 。 


上 
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本 
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正如 等 式 (2. 9 所 描述 的 ， 这 种 截断 无 符号 数值 的 结果 就 是 发 现 它们 模 8 的 余数 。 截 断 有 符号 
数 的 结果 要 更 复杂 一 些 。 根 据 等 式 (2. 10)， 我 们 首先 计算 这 个 参数 模 8 后 的 余数 。 对 于 参数 0 一 ?， 
将 得 出 值 0 一 7?， 对 于 参数 一 8 一 一 1 也 是 一 样 。 然 后 我 们 对 这 些 余 数 应 用 函数 U2Ts: ， 得 出 两 个 0~ 
3 和 一 4 一 1 序列 的 反复 。 
设计 这 个 问题 是 要 说 明 从 有 符号 数 到 无 符号 数 的 隐 式 强制 类 型 转换 很 容易 引起 错误 。 将 参数 
length 作为 一 个 无 符号 数 来 传递 看 上 去 是 件 相当 自然 的 事情 ， 因 为 没有 人 会 想到 使 用 一 个 长 度 为 
负数 的 值 。 停 止 条 件 i<=length-1 看 上 去 也 很 自然 。 但 是 把 这 两 点 组 合 到 一 起 ， 将 产生 意 想不到 
的 结果 1! 

因为 参数 length 是 无 符号 的 ， 计 算 0 一 1 将 使 用 无 符号 运算 ， 这 等 价 于 模 数 加 法 。 结 果 得 到 
UMaz 。 委 比较 同样 使 用 无 符号 数 比 较 ， 而 因为 任何 数 都 是 小 于 或 者 等 于 LUMaz 的 ， 所 以 这 个 比 
较 总 是 为 真 ! 因此 ， 代 码 将 试图 访问 数组 a 的 非法 元 素 。 

有 两 种 方法 可 以 改正 这 段 代码 ， 其 一 是 将 length 声明 为 int 类 型 ， 其 二 是 将 for 循环 的 测 
试 条 件 改 为 i<length。 
这 个 例子 说 明了 无 符号 运算 的 一 个 细微 的 特性 ， 同 时 也 是 我 们 执行 无 符号 运算 时 不 会 意识 到 的 属 
性 。 这 会 导致 一 些 非 常 棘手 的 错误 。 
A. 在 什么 情况 下 ， 这 个 函数 会 产生 不 正确 的 结果 ? 当 s 比 t 短 的 时 候 ， 该 函数 会 不 正确 地 返回 1。 
B. 解释 为 什么 会 出 现 这 样 不 正确 的 结果 。 由 于 strlen 被 定义 为 产生 一 个 无 符号 的 结果 ， 差 和 比 

较 都 采用 无 符号 运算 来 计算 。 当 s 比 t 短 的 时 候 ，strlen(s)-strlen (t) 的 差 会 为 负 ， 但 是 变 

成 了 一 个 很 大 的 无 符号 数 ， 且 大 于 0。 
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C. 说 明 如 何 修改 这 段 代码 好 让 它 能 可 靠 地 工作 。 将 测试 语句 改 成 : 


return strlen(s) > Strlen( 人 tt) ; 


这 个 函数 是 对 确定 无 符号 加 法 是 否 溢出 的 规则 的 直接 实现 。 


/* Determine whether arguments can be added without overflow */ 
int uadd_ok(unsigned x, unsigned y) { 

unsigned sum = x+y; 

return sum >= xX; 


} 
本 题 是 对 算术 模 16 的 简单 示范 。 最 容易 的 解决 方法 是 将 十 六 进 制 模 式 转换 成 它 的 无 符号 十 进 制 


值 。 对 于 非 零 的 z 值 ， 我 们 必须 有 (一 yz) 十 z=16。 然 后 ， 我 们 就 可 以 将 取 补 后 的 值 转换 回 十 六 
进 制 。 





十 进 制 TT 





0 
5 1 
8 
13 
15 


本 题 的 目的 是 确保 你 理解 了 补 码 加 法 。 






| | | 


-12 -15 -27 
[10100] | [10001] | [100101] 和 
-8 -8 -16 -16 
on | oon oom | um | 
-9 -1 
oo am | on | on | 
7 
ol | ony | | 
12 16 -16 


[010000] [10000] 
这 个 函数 是 对 确定 补 码 加 法 是 否 溢 出 的 规则 的 直接 实现 。 


/* Determine whether arguments can be added without overflow */ 
int tadd_ok(int x, int y) { 

int sum = x+y; 

int neg_over =x < 0&y< 0& sum >= 0; 

int pos_over = x >=0&&y >=0&g& sum< 0; 

return !Deg_over && !pos_over; 






















} 


通过 学 习 2. 3.2 节 ， 你 的 同事 可 能 已 经 学 到 补 码 加 会 形成 一 个 阿 贝 尔 群 ， 因 此 表达 式 (x+y) -x 求 
值得 到 y， 无 论 加 法 是 否 滋 出 ， 而 (x+y) -~y 总 是 会 求 值 得 到 x。 
这 个 函数 会 给 出 正确 的 值 ， 除 了 当 y 等 于 TMin 时 。 在 这 个 情况 下 ,我 们 有 -y 也 等 于 TMin， 因 
此 函数 tadq_ok 会 认为 只 要 x 是 负数 时 ， 就 会 溢出 ， 而 x 为 非 负 数 时 ， 不 会 游 出 。 实 际 上 ， 和 情况 
恰恰 相反 : 当 x 为 负数 时 ，tsub ok(x，TMin) 为 1; 而 当 x 为 非 负 时 ， 它 为 0。 

这 个 练习 说 明 ， 在 函数 的 任何 测试 过 程 中 ，TMin 都 应 该 作为 一 种 测试 情况 。 
本 题 使 用 非常 小 的 字 长 来 帮助 你 理解 补 码 的 非 。 

对 于 w 二 4， 我 们 有 TMim 一 一 8。 因 此 一 8 是 它 自己 的 加 法 逆 元 ， 而 其 他 数值 是 通过 整数 非 
来 取 非 的 。 
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十 六 进 制 

















对 于 无 符号 数 的 非 ， 位 的 模式 是 相同 的 。 
本 题目 是 确保 你 理解 了 补 码 乘法 。 






x 


无 符号 数 4 [100] 5 [101] 20 [010100] 
补 码 -4 [100] | -3 [101] 12 [001100] 


无 符号 数 2 [010] 7 [111] 14 [001110] 
补 码 2 [010] | -1 [111] -2 [111110] 
6 [110] 36 [100100] 

4 [000100] 


-2 [110] 
对 所 有 可 能 的 x 和 y 测试 一 遍 这 个 函数 是 不 现实 的 。 当 数据 类 型 int 为 32 位 时 ， 即 使 你 每 秒 运行 
一 百 亿 个 测试 ， 也 需要 58 年 才能 测试 完 所 有 的 组 合 。 另 一 方面 ， 把 函数 中 的 数据 类 型 改 成 short 
或 者 char， 然 后 再 穷尽 测试 ， 倒 是 测试 代码 的 一 种 可 行 的 方法 。 
我 们 提出 以 下 论据 ， 这 是 一 个 更 理论 的 方法 : 
1) 我 们 知道 zx。 y 可 以 写成 一 个 2w 位 的 补 码 数 字 。 用 wu 来 表示 低 w 位 表示 的 无 符号 数 ，vw 表示 高 
包 位 的 补 码 数字 。 那 么 ， 根 据 公 式 (2.3) ， 我 们 可 以 得 到 zz。，y 一 z2" 十 zx。 

我 们 还 知道 v 一 T2U (zt)， 因 为 它们 是 从 同一 个 位 模式 得 出 来 的 无 符号 和 补 码 数字 ， 因 此 
根据 等 式 (2. 6)， 我 们 有 wu 二 p 十 pw-12”"， 这 里 p。-1 是 p 的 最 高 有 效 位 。 设 村 "十 如 -:， 我 们 有 
TX* y=p+it2", 

当 t=0 时 ， 有 x，y==p; 乘法 不 会 洲 出 。 当 1 隆 0 时 ， 有 zy 关 p; 乘法 不 会 溢出 。 

2) 根据 整数 除法 的 定义 ， 用 非 零 数 工 除 以 娟 会 得 到 商 g 和 余数 r, 即 p=z*g+r, 且 |r| 过 |zx|。 
(这 里 用 的 是 绝对 值 ， 因 为 x 和 7 的 符号 可 能 不 一 致 。 例 如 ， 一 7 除 以 2 得 到 商 一 3 和 余数 一 1。) 

3) 假设 gq 二 y。 那 么 有 zx，y= 二 +，y 十 r 十 t2*。 在 此 ， 我 们 可 以 得 到 r 十 12*=0。 但 是 |r| 二 |z| 志 
2*， 所 以 只 有 当 i 二 0 时 ， 这 个 等 式 才 会 成 立 ， 此 时 ~ 一 0。 

假设 r=t 二 0。 那 么 我 们 有 x， y= 二 +，gq， 隐 含有 y= 二 g。 

当 x=0 时 ， 乘 法 不 溢出 ， 所 以 我 们 的 代码 提供 了 一 种 可 靠 的 方法 来 测试 补 码 乘法 是 否 会 导致 溢出 。 
如 果 用 64 位 表示 ， 乘 法 就 不 会 有 溢出 。 然 后 我 们 来 验证 将 乘积 强制 类 型 转换 为 32 位 是 否 会 改变 
它 的 值 : 

































人 /* Determine whether the arguments can be multiplied 
2 without overflow */ 

3 int tmult_ok(int x, int y) { 

4 /* Compute product without overflow */ 

5 int64_t pll = (int64_t) x*y; 

6 /* See if casting to int preserves value */ 

7 return pll == (int) pll; 

2 


注意 ,第 5 行 右边 的 强制 类 型 转换 至 关 重要 。 如 果 我 们 将 这 一 行 写 成 
int64_t pll = x*y; 


就 会 用 32 位 值 来 计算 乘积 (可 能 会 溢出 )， 然 后 再 符号 扩展 到 64 位 。 


2.37 


2.38 


2.40 


2. 42 


2.43 
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A. 这 个 改动 完全 没有 帮助 。 虽 然 asize 的 计算 会 更 准确 ,但 是 调用 malloc 会 导致 这 个 值 被 转换 
成 一 个 32 位 无 符号 数字 ， 因 而 还 是 会 出 现 同样 的 溢出 条 件 。 

B. malloc 使 用 一 个 32 位 无 符号 数 作为 参数 ， 它 不 可 能 分 配 一 个 大 于 2 个 字 节 的 块 ， 因 此 ， 没 有 
必要 试图 去 分 配 或 者 复制 这 样 大 的 一 块 内 存 。 取 而 代 之 ， 函 数 应 该 放弃 返回 NULL， 用 下 面 
的 代码 取代 对 malloc 原始 的 调用 (第 9 行 ): 


uint64_t required_size = ele_cnt * (uint64_t) ele_size; 
size_t request_size = (size_t) required_size; 


if (required_size != request_size) 
/* Overflow must have occurred. Abort operation */ 
return NULL; 


void *result = malloc(request_size); 
if (result == NULL) 
/* malloc failed */ 
return NULL; 
在 第 3 章 中 ， 我 们 将 看 到 很 多 实际 的 LEA 指令 的 例子 。 用 这 个 指令 来 支持 指针 运算 ,但 是 C 语言 
编译 器 经 常用 它 来 执行 小 常数 乘法 。 
对 于 每 个 的 值 ， 我 们 可 以 计算 出 2 的 倍数 : 2:( 当 5 为 0 时 ) 和 2 十 1( 当 6 为 a 时 )。 因 此 我 
们 能 够 计算 出 倍数 为 1，2，3，4，5，8 和 9 的 值 。 
这 个 表达 式 就 变 成 了 - (x< <m) 。 要 看 清 这 一 点 ， 设 字 长 为 w，n 二 w 一 1。 形 式 B 说 我 们 要 计算 (x< <w) - 
(x<<m)， 但 是 将 x 向 左 移动 w 位 会 得 到 值 0。 
本 题 要 求 你 使 用 讲 过 的 优化 技术 ， 同 时 也 需要 自己 的 一 点 儿 创 造 力 。 


se 革 珊 下 


(x<<2) + (x<<1) 


(x<<5) -x 


(x<<1) - (x<<3) 





(x<<6) - (x<<3) - 


可 以 观察 到 ， 第 四 种 情况 使 用 了 形式 B 的 改进 版 本 。 我 们 可 以 将 位 模式 L110111] 看 作 6 个 连 
续 的 1 中间 有 一 个 0， 因 而 我 们 对 形式 B 应 用 这 个 原则 ,但 是 需要 在 后 来 把 中 间 0 位 对 应 的 项 
减 掉 。 
假设 加 法 和 减法 有 同样 的 性 能 ， 那 么 原则 就 是 当 nn 二 m 时 ， 选 择 形式 A， 当 n 二 mw 十 1 时 ， 随 便 选 
哪 种 ， 而 当 x 盖 mm 十 1 时 ， 选 择 形式 B。 

这 个 原则 的 证 明 如 下 。 首 先 假设 mw 之 0。 当 n= 二 =m 时， 形式 A 只 需要 1 个 移 位 ， 而 形式 B 需 要 
2 个 移 位 和 1 个 减法 。 当 n=m 十 1 时 ， 这 两 种 形式 都 需要 2 个 移 位 和 1 个 加 法 或 者 1 个 减法 。 当 
n 之 m 十 1 时， 形式 B 只 需要 2 个 移 位 和 1 个 减法 ， 而 形式 A 需要 ”一 办 十 1 之 2 个 移 位 和 ?一 mm 盖 1 
个 加 法 。 对 于 mm=0 的 情况 ， 对 于 形式 A 和 B 都 要 少 1 个 移 位 ， 所 以 在 两 者 中 选择 时 ， 还 是 适用 
同样 的 原则 。 

这 里 唯一 的 挑战 是 不 使 用 任何 测试 或 条 件 运算 来 计算 偏 置 量 。 我 们 利用 了 一 个 诀 穿 ， 表 达 式 x>> 
31 产生 一 个 字 ， 如 果 x 是 负数 ， 这 个 字 为 全 1， 和 否则 为 全 0。 通 过 掩 码 屏蔽 掉 适 当 的 位 ， 我 们 就 得 
到 期 望 的 偏 置 值 。 


int divi6(int x) 攻 
/* Compute bias to be either 0 (x >= 0) or 15 (x < 0) */ 
int bias = (x >> 31) & OxF; 
return (x + bias) >> 4; 


} 
我 们 发 现 当 人 们 直接 与 汇编 代码 打交道 时 是 有 困难 的 。 但 当 把 它 放 人 optarith 所 示 的 形式 中 时 ， 
问题 就 变 得 更 加 清晰 明了 。 

我 们 可 以 看 到 M 是 31; 是 用 (x<<5) -x 来 计算 x*M。 
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2. 44 


2. 46 


2. 47 


我 们 可 以 看 到 N 是 8; 当 y 是 负数 时 ， 加 上 偏 置 量 7， 并 且 右 移 3 位 。 
这 些 “C 的 谜 题 ”清楚 地 告诉 程序 员 必 须 理解 计算 机 运算 的 属性 。 
A. (x> 0) 11 ((x-1) < 0) 

假 。 设 x 等 于 一 2 147 483 648(TMinss)。 那 么 ， 我们 有 x-1 等 于 2147483647(TMazxsz)。 
B. (wee7 ls=71| Ce< ZR 0) 

真 。 如 果 (x & 7) != 7 这 个 表达 式 的 值 为 0， 那 么 我 们 必须 有 位 zx 等 于 1。 当 左 移 29 位 时 ， 这 

个 位 将 变 成 符号 位 。 
C. (x* x) >= 0 

假 。 当 x 为 65 535(0xFFFF) 时 ，x * x 为 一 131 071(0xFFFE0001)。 
D.x<0||-x<=0 

真 。 如 果 x 是非 负数 ， 则 -x 是 非 正 的 。 
E: x > 0 11 = Ss 0 

假 。 设 x 为 一 2 147 483 648(TMins)。 那 么 x 和 -x 都 为 负数 。 


F. x+ty == uytux 
真 。 补 码 和 无 符号 乘法 有 相同 的 位 级 行为 ， 而 且 它们 是 可 交换 的 。 
G, x*~y + Uy*ux == -x 


真 。~y 等 于 -y-1。uy*ux 等 于 x*y。 因 此 ， 等 式 左 边 等 价 于 x*-y-xtx*y。 
理解 二 进 制 小 数 表示 是 理解 浮 点 编码 的 一 个 重要 步骤 。 这 个 练习 让 你 试验 一 些 简 单 的 例子 。 


| 小 数值 。 |。 二进制 表示 | 十 进 仙 表示 | 
0.001 
0.11 
1.1001 
10.1011 
1.001 
101.111 
11.0011 





1 

3 

4 
25 
16 
43 
16 
2 

g 
47 
本 
51 
16 


考虑 二 进 制 小 数 表示 的 一 个 简单 方法 是 将 一 个 数 表示 为 形 如 吉 的 小 数 。 我 们 将 这 个 形式 表示 
为 二 进 制 的 过 程 是 : 使 用 的 二 进 制 表 示 ， 并 把 二 进 制 小 数 点 插入 从 右边 算 起 的 第 & 个 位 置 。 举 
二 人 网 才 5 对 于 卫 ， 我 们 有 251 二 11001; 。 然 后 我 们 把 二 进 制 小 数 点 放 在 从 右 算 起 的 第 4 位， 得 


到 1. 1001， 。 
在 大 多 数 情况 中 ， 浮 点 数 的 有 限 精 度 不 是 主要 的 问题 ， 因 为 计算 的 相对 误差 仍然 是 相当 低 的 。 然 
而 在 这 个 例子 中 ， 系 统 对 于 绝对 误差 是 很 敏感 的 。 
A. 我 们 可 以 看 到 0. 1 一 z 的 二 进 制 表 示 为 : 
0. 000000000000000000000001100[1100]…， 


B. 把 这 个 表示 与 证 的 二 进 制 表示 进行 比较 ， 我 们 可 以 看 到 这 就 是 2-2 X 耳 ， 也 就 是 大 约 9. 54X 


LO 
C. 9.54X10-sX100X60X60X10~0. 343 秒 。 
D. 0. 343X2000687 米 。 
研究 字 长 非常 小 的 浮 点 表示 能 够 帮助 澄清 IEEE 浮 点 是 怎样 工作 的 。 要 特别 注意 非 规格 化 数 和 规 
格 化 数 之 间 的 过 渡 。 


2.48 


2.51 
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0 
4 
1 
4 
2 
4 
3 
4 
4 
4 
5 
4 
6 
> 
7 
4 
8 
4 
10 
区 入 
12 
4 
14 
4 


加 
之 





十 六 进 制 0x359141 等 价 于 二 进 制 [1101011001000101000001]。 将 之 右 移 21 位 得 到 

1. 101011001000101000001; X22 。 除 去 起 始 位 的 1 并 增加 2 个 0 形成 小 数字 段 ， 从 而 得 到 

[10101100100010100000100]。 阶 码 是 通过 21 加 上 偏 置 量 127 形成 的 ， 得 到 148 (二 进 制 

[10010100]) 。 我 们 把 它 和 符号 字段 0 联合 起 来 ， 得 到 二 进 制 表示 
[01001010010101100100010100000100] 

我 们 看 到 两 种 表示 中 匹配 的 位 对 应 于 整数 的 低位 到 最 高 有 效 位 等 于 1， 匹配 小 数 的 高 21 位 : 


0 0 3 5 9 1 4 1 
00000000001101011001000101000001 
水 冰冰 来 素 素来 来 来 素来 素 素 宁 字 素 素 水 玫 求 来 


4 A 5 6 4 5 0 4 
01001010010101100100010100000100 
这 个 练习 帮助 你 思考 什么 数 不 能 用 浮 点 准确 表示 。 
A. 这 个 数 的 二 进 制 表示 是 : 1 后 面 跟着 n 个 0， 其 后 再 跟 1， 得 到 值 是 2 十 1。 
B. 当 n=23 时 ， 值 是 2 十 1 一 16 777 217。 
人 工会 人 帮助 你 加 强 二 进 制 数 会 入 到 偶数 的 概念 。 





A. 从 1/10 的 无 穷 序 列 中 我 们 可 以 看 到 ， 舍 人 位 置 右边 2 位 都 是 1， 所 以 对 1/10 更 好 一 点 儿 的 近 
似 值 应 该 是 对 x 加 1， 得 到 x' ==0.00011001100110011001101;,， 它 比 0.1 大 一 点 儿 。 

B. 我 们 可 以 看 到 zx' 一 0.1 的 二 进 制 表示 为 : 

0. 0000000000000000000[1100] 

将 这 个 值 与 1/10 的 二 进 制 表示 做 比较 ， 我们 可 以 看 到 它 等 于 2 ”X1/10， 大约 等 于 2. 38X 
lO 

C. 2.38X10 :X100X60X60X10a0.086 秒 ， 爱 国 者 导弹 系统 中 的 误差 是 它 的 4 倍 。 

D. 0. 086X2000<z*171 米 。 

这 个 题目 考查 了 很 多 关于 浮 点 表示 的 概念 ， 包 括 规格 化 和 非 规 格 化 的 值 的 编码 ， 以 及 舍 入 。 
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格式 B 
位 和 值 


0111 000 
TOOL 111 
0110 .100 
1011 000 
0001 000 





011 0000 
10L 和 LID 
010 1001 
EN 
000 0001 


向 下 舍 人 
向 上 舍 人 
非 规格 化 一 规格 化 


值 
1 
15 
25 
于 
天 
2 
研 
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2.53 一 般 来 说 ， 使 用 库 宏 (library macro) 会 比 你 自己 写 的 代码 更 好 一 些 。 不 过 ， 这 段 代 码 似乎 可 以 在 多 
种 机 器 上 工作 。 
假设 值 le400 溢出 为 无 穷 。 


#define POS_INFINITY le400 
#define NEG_INFINITY (-POS_INFINITY) 
#define NEG_ZERO (-1.0/POS_INFINITY) 


2. 54 ”这 个 练习 可 以 帮助 你 从 程序 员 的 角度 来 提高 研究 浮 点 运算 的 能 力 。 确 信 自己 理解 下 面 每 一 个 答案 。 


A, x== (int) (double) x 

真 ， 因 为 double 类 型 比 int 类 型 具有 更 大 的 精度 和 范围 。 
B. x== (int) (double) x 

假 ， 例如 当 x 为 TMaz 时 。 
C. d== (double) (float) d 

假 ， 例 如 当 a 为 le40 时 ， 我 们 在 右边 得 到 十 ce 。 
D. f == (float) (double) f 

真 ， 因 为 double 类 型 比 float 类 型 具有 更 大 的 精度 和 范围 。 
E. £ == -(-f) 


真 ， 因 为 浮 点 数 取 非 就 是 简单 地 对 它 的 符号 位 取 反 。 
F. 1.0/2 == 1/2.0 
真 ， 在 执行 除法 之 前 ， 分 子 和 分 母 都 会 被 转换 成 浮 点 表示 。 
G. d*d>=0.0 
真 ， 虽然 它 可 能 会 溢出 到 十 oo。 
H. (f+d)-f == d 
假 ， 例 如 当 f 是 1.0e20 而 d 是 1.0 时 ， 表达 式 fd 会 伟人 到 1.0e20， 因 此 左边 的 表达 式 求 值 
得 到 0.0， 而 右边 是 1. 0。 
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程序 的 机 器 级 表示 


计算 机 执行 机 器 代码 ， 用 字 节 序列 编码 低级 的 操作 ， 包 括 处 理 数据 、 管 理 内 存 、 读 写 
存储 设备 上 的 数据 ， 以 及 利用 网 络 通信 。 编 译 器 基于 编程 语言 的 规则 、 目 标 机 器 的 指令 集 
和 操作 系统 遵循 的 惯例 ， 经 过 一 系列 的 阶段 生成 机 器 代码 。GCC C 语言 编译 器 以 汇编 代码 
的 形式 产生 输出 ， 汇 编 代 码 是 机 器 代码 的 文本 表示 ， 给 出 程序 中 的 每 一 条 指令 。 然 后 
GCC 调用 汇编 器 和 链接 器 ， 根 据 汇 编 代 码 生 成 可 执行 的 机 器 代码 。 在 本 章 中 ， 我 们 会 近 
距离 地 观察 机 器 代码 ， 以 及 人 类 可 读 的 表示 汇编 代码 。 

当 我 们 用 高 级 语言 编程 的 时 候 ( 例 如 C 语 言 ，Java 语言 更 是 如 此 )， 机 器 屏蔽 了 程序 的 细 
节 ， 即 机 器 级 的 实现 。 与 此 相反 ， 当 用 汇编 代码 编程 的 时 候 ( 就 像 早期 的 计算 )， 程 序 员 必须 
指定 程序 用 来 执行 计算 的 低级 指令 。 高 级 语言 提供 的 抽象 级 别 比 较 高 ， 大 多 数 时 候 ， 在 这 种 
抽象 级 别 上 工作 效率 会 更 高 ， 也 更 可 靠 。 编 译 器 提供 的 类 型 检查 能 帮助 我 们 发 现 许 多 程序 错 
误 ， 并 能 够 保证 按照 一 致 的 方式 来 引用 和 处 理 数据 。 通 常情 况 下 ， 使 用 现代 的 优化 编译 器 产 
生 的 代码 至 少 与 一 个 熟练 的 汇编 语言 程序 员 手 工 编写 的 代码 一 样 有 效 。 最 大 的 优点 是 ， 用 高 级 
语言 编写 的 程序 可 以 在 很 多 不 同 的 机 器 上 编译 和 执行 ， 而 汇编 代码 则 是 与 特定 机 器 密切 相关 的 。 

那么 为 什么 我 们 还 要 花 时 间 学 习 机 器 代码 呢 ? 即使 编译 器 承担 了 生成 汇编 代码 的 大 部 
分 工作 ， 对 于 严谨 的 程序 员 来 说 ， 能 够 阅读 和 理解 汇编 代码 仍 是 一 项 很 重要 的 技能 。 以 适 
当 的 命令 行 选项 调用 编译 器 ， 编 译 器 就 会 产生 一 个 以 汇编 代码 形式 表示 的 输出 文件 。 通 过 
阅读 这 些 汇编 代码 ， 我 们 能 够 理解 编译 器 的 优化 能 力 ， 并 分 析 代 码 中 隐 含 的 低 效 率 。 就 像 
我 们 将 在 第 5 章 中 体会 到 的 那样 ， 试 图 最 大 化 一 段 关 键 代 码 性 能 的 程序 员 ， 通 常会 尝试 源 
代码 的 各 种 形式 ， 每 次 编译 并 检查 产生 的 汇编 代码 ， 从 而 了 解 程序 将 要 运行 的 效率 如 何 。 
此 外 ， 也 有 些 时候 ， 高 级 语言 提供 的 抽象 层 会 隐藏 我 们 想 要 了 解 的 程序 的 运行 时 行为 。 例 
如 ， 第 12 章 会 讲 到 ， 用 线程 包 写 并 发 程序 时 ， 了 解 不 同 的 线程 是 如 何 共享 程序 数据 或 保持 
数据 私有 的 ， 以 及 准确 知道 如 何在 哪里 访问 共享 数据 ， 都 是 很 重要 的 。 这 些 信息 在 机 器 代码 
级 是 可 见 的 。 另 外 再 举 一 个 例子 ， 程 序 遭 受 攻击 (使 得 恶意 软件 侵扰 系统 ) 的 许多 方式 中 ， 都 
涉及 程序 存储 运行 时 控制 信息 的 方式 的 细节 。 许 多 攻击 利用 了 系统 程序 中 的 漏洞 重 写 信息 ， 
从 而 获得 了 系统 的 控制 权 。 了 解 这 些 漏洞 是 如 何 出 现 的 ， 以 及 如 何 防御 它们 ， 需 要 具备 程序 
机 器 级 表示 的 知识 。 程 序 员 学 习 汇 编 代码 的 需求 随 着 时 间 的 推移 也 发 生 了 变化 ， 开 始 时 要 求 
程序 员 能 直接 用 汇编 语言 编写 程序 ， 现 在 则 要 求 他 们 能 够 阅读 和 理解 编译 器 产生 的 代码 。 

在 本 章 中 ， 我 们 将 详细 学 习 一 种 特别 的 汇编 语言 ， 了 解 如 何 将 C 程序 编译 成 这 种 形式 
的 机 器 代码 。 阅 读 编译 器 产生 的 汇编 代码 ， 需 要 具备 的 技能 不 同 于 手工 编写 汇编 代码 。 我 
们 必须 了 解 典 型 的 编译 器 在 将 C 程序 结构 变换 成 机 器 代码 时 所 做 的 转换 。 相 对 于 C 代码 表 
示 的 计算 操作 ， 优 化 编译 器 能 够 重新 排列 执行 顺序 ， 消 除 不 必要 的 计算 ， 用 快速 操作 替换 
慢 速 操作 ， 甚 至 将 递归 计算 变换 成 迭代 计算 。 源 代码 与 对 应 的 汇编 代码 的 关系 通常 不 太 容 易 
理解 一 一 就 像 要 拼 出 的 拼图 与 盒子 上 图 片 的 设计 有 点 不 太一 样 。 这 是 一 种 逆向 工程 (reverse 
engineering) 通过 研究 系统 和 逆向 工作 ， 来 试图 了 解 系统 的 创建 过 程 。 在 这 里 ， 系 统 
是 一 个 机 器 产生 的 汇编 语言 程序 ， 而 不 是 由 人 设计 的 某 个 东西 。 这 简化 了 逆向 工程 的 任 
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务 ， 因 为 产生 的 代码 遵循 比较 规则 的 模式 ， 而 且 我 们 可 以 做 试验 ， 让 编译 器 产生 许多 不 同 
程序 的 代码 。 本 章 提供 了 许多 示例 和 大 量 的 练习 ， 来 说 明 汇 编 语言 和 编译 器 的 各 个 不 同方 
面 。 精 通 细节 是 理解 更 深 和 更 基本 概念 的 先决 条 件 。 有 人 说 : “我 理解 了 一 般 规则 ， 不 愿 
意 劳 神 去 学 习 细 节 !” 他 们 实际 上 是 在 自欺欺人 。 花 时 间 研 究 这 些 示 例 、 完 成 练习 并 对 照 
提供 的 答案 来 检查 你 的 答案 ， 是 非常 关键 的 。 

我 们 的 表述 基于 x86-64， 它 是 现在 笔记 本 电脑 和 台式 机 中 最 常见 处 理 器 的 机 器 语言 ， 也 
是 驱动 大 型 数据 中 心 和 超级 计算 机 的 最 常见 处 理 器 的 机 器 语言 。 这 种 语言 的 历史 悠久 ， 开 始 
于 Intel 公司 1978 年 的 第 一 个 16 位 处 理 器 ， 然 后 扩展 为 32 位 ， 最 近 又 扩展 到 64 位 。 一 路 以 
来 ， 逐渐 增 加 了 很 多 特性 ， 以 更 好 地 利用 已 有 的 半导体 技术 ， 以 及 满足 市 场 需求 。 这 些 进 步 
中 很 多 是 Intel 自己 驱动 的 ， 但 它 的 对 手 AMD(Advanced Micro Devices) 也 作出 了 重要 的 贡献 。 
演化 的 结果 是 得 到 一 个 相当 奇特 的 设计 ， 有 些 特性 只 有 从 历史 的 观点 来 看 才 有 意义 ， 它 还 具 
有 提供 后 向 兼容 性 的 特性 ， 而 现代 编译 器 和 操作 系统 早已 不 再 使 用 这 些 特 性 。 我 们 将 关注 
GCC 和 Linux 使 用 的 那些 特性 ， 这 样 可 以 避免 x86-64 的 大 量 复杂 性 和 许多 隐秘 特性 。 

我 们 在 技术 讲解 之 前 ， 先 快速 浏览 C 语言 、 汇 编 代 码 以 及 机 器 代码 之 间 的 关系 。 然 后 
介绍 x86-64 的 细节 ， 从 数据 的 表示 和 处 理 以 及 控制 的 实现 开始 。 了 解 如 何 实现 C 语言 中 
的 控制 结构 ， 如 if、while 和 switch 语句 。 之 后 ， 我 们 会 讲 到 过 程 的 实现 ， 包 括 程序 如 
何 维护 一 个 运行 栈 来 支持 过 程 间 数据 和 控制 的 传递 ， 以 及 局 部 变量 的 存储 。 接 着 ， 我 们 会 
考虑 在 机 器 级 如 何 实现 像 数 组 、 结 构 和 联合 这 样 的 数据 结构 。 有 了 这 些 机 器 级 编程 的 背景 
知识 ， 我 们 会 讨论 内 存 访问 越界 的 问题 ， 以 及 系统 容易 遭受 缓冲 区 溢出 攻击 的 问题 。 在 这 
一 部 分 的 结尾 ， 我 们 会 给 出 一 些 用 GDB 调试 器 检查 机 器 级 程序 运行 时 行为 的 技巧 。 本 章 
的 最 后 展示 了 包含 浮 点 数据 和 操作 的 代码 的 机 器 程序 表示 。 


YY 大 IA32 编程 


IA32，x86-64 的 32 位 前 身 ， 是 Intel 在 1985 年 提出 的 。 几 十 年 来 一 直 是 Intel 的 机 器 语 
言 之 选 。 今 天 出 售 的 大 多 数 x86 微 处 理 器 ， 以 及 这 些 机 器 上 安装 的 大 多 数 操作 系统 ， 都 是 为 
运行 x86-64 设计 的 。 不 过 ， 它 们 也 可 以 向 后 兼容 执行 IA32 程序 。 所 以 ， 很 多 应 用 程序 还 是 
基于 IA32 的 。 除 此 之 外 ， 由 于 硬件 或 系统 软件 的 限制 ， 许 多 已 有 的 系统 不 能 够 执行 x86-64。 
IA32 仍然 是 一 种 重要 的 机 器 语言 。 学 习 过 x86-64 会 使 你 很 容易 地 学 会 ITA32 机 器 语言 。 


计算 机 工业 已 经 完成 从 32 位 到 64 位 机 器 的 过 渡 。32 位 机 器 只 能 使 用 大 概 4GB(22 字 
节 ) 的 随机 访问 存储 器 。 存 储 器 价格 急剧 下 降 ， 而 我 们 对 计算 的 需求 和 数据 的 大 小 持续 增 
加 ， 超 越 这 个 限制 既 经 济 上 可 行 又 有 技术 上 的 需要 。 当 前 的 64 位 机 器 能 够 使 用 多 达 
256TB(24 字 节 ) 的 内 存 空 间 ， 而 且 很 容易 就 能 扩展 至 16EB(2“ 字 节 )。 虽 然 很 难 想象 一 台 
机 器 需要 这 么 大 的 内 存 ， 但 是 回想 20 世纪 70 和 80 年 代 ， 当 32 位 机 器 开始 普及 的 时 候 ， 
4GB 的 内 存 看 上 去 也 是 超级 大 的 。 

我 们 的 表述 集中 于 以 现代 操作 系统 为 目标 ， 编 译 C 或 类 似 编 程 语言 时 ， 生 成 的 机 器 级 
程序 类 型 。x86-64 有 一 些 特性 是 为 了 支持 遗留 下 来 的 微 处 理 器 早期 编程 风格 ， 在 此 ， 我 们 
不 试图 去 描述 这 些 特 性 ， 那 时 候 大 部 分 代码 都 是 手工 编写 的 ， 而 程序 员 还 在 努力 与 16 位 
机 器 允许 的 有 限 地 址 空间 奋战 。 


3.1 历史 观点 
Intel 处 理 器 系列 俗称 x86， 经 历 了 一 个 长 期 的 、 不 断 进 化 的 发 展 过 程 。 开 始 时 ， 它 是 第 
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一 代 单 芯片 、16 位 微 处 理 器 之 一 ， 由 于 当时 集成 电路 技术 水 平 十 分 有 限 ， 其 中 做 了 很 多 受 
协 。 以 后 ， 它 不 断 地 成 长 ， 利 用 进步 的 技术 满足 更 高 性 能 和 支持 更 高 级 操作 系统 的 需求 。 

以 下 列举 了 一 些 Intel 处 理 器 的 模型 ， 以 及 它们 的 一 些 关 键 特性 ， 特 别 是 影响 机 器 级 
编程 的 特性 。 我 们 用 实现 这 些 处 理 器 所 需要 的 晶体 管 数量 来 说 明 演 变 过 程 的 复杂 性 。 其 
中 ,“K” 表 示 1000,“M” 表 示 1 000 000， 而 “G” 表 示 1 000 000 000。 

8086(1978 年 ，29K 个 晶体 管 )。 它 是 第 一 代 单 芯片 、16 位 微 处 理 器 之 一 。8088 是 8086 
的 一 个 变种 ， 在 8086 上 增加 了 一 个 8 位 外 部 总 线 ， 构 成 最 初 的 IBM 个 人 计算 机 的 心脏 。 
IBM 与 当时 还 不 强大 的 微软 签订 合同 ， 开 发 MS-DOS 操作 系统 。 最 初 的 机 器 型 号 有 32 768 字 
节 的 内 存 和 两 个 软驱 (没有 硬盘 驱动 器 ) 。 从 体系 结构 上 来 说 ， 这 些 机 器 只 有 655 360 字 节 的 
地 址 空间 一 一 地 址 只 有 20 位 长 (可 寻 址 范围 为 1048 576 字 节 ) ， 而 操作 系统 保留 了 393 216 字 
节 自用 。1980 年 ，Intel 提出 了 8087 浮 点 协 处 理 器 (45K 个 晶体 管 )， 它 与 一 个 8086 或 8088 
处 理 器 一 同 运 行 ， 执 行 浮 点 指令 。8087 建立 了 x86 系列 的 浮 点 模型 ， 通 常 被 称 为 “x87”。 

80286(1982 年 ，134K 个 晶体 管 )。 增 加 了 更 多 的 寻 址 模式 (现在 已 经 废弃 了 )， 构 成 
了 IBM PC-AT 个 人 计算 机 的 基础 ， 这 种 计算 机 是 MS Windows 最 初 的 使 用 平台 。 

i386(1985 年 ，275K 个 晶体 管 )。 将 体系 结构 扩展 到 32 位 。 增 加 了 平坦 寻 址 模式 (flat 
addressing model) ，Linux 和 最 近 版 本 的 Windows 操作 系统 都 是 使 用 的 这 种 模式 。 这 是 
Intel 系列 中 第 一 台 全 面 支持 Unix 操作 系统 的 机 器 。 

i486(1989 年 ，1. 2M 个 晶体 管 ) 。 改 善 了 性 能 ， 同 时 将 泽 点 单元 集成 到 了 处 理 器 芯片 
上 ， 但 是 指令 集 没 有 明显 的 改变 。 

Pentium(1993 年 ，3. 1M 个 晶体 管 )。 改 善 了 性 能 ， 不 过 只 对 指令 集 进行 了 小 的 扩展 。 

PentiumPro(1995 年 ，5. 5M 个 晶体 管 )。 引 入 全 新 的 处 理 器 设计 ， 在 内 部 被 称 为 P6 
微 体 系 结构 。 指 令 集中 增加 了 一 类 “条 件 传送 (conditional move)” 指 令 。 

Pentium/MMX(1997 年 ，4.5M 个 晶体 管 ) 。 在 Pentium 处 理 器 中 增加 了 一 类 新 的 处 
理 整数 向 量 的 指令 。 每 个 数据 大 小 可 以 是 1、2 或 4 字 节 。 每 个 向 量 总 长 64 位 。 

Pentium II1997 年 ，7M 个 晶体 管 ) 。P6 微 体系 结构 的 延伸 。 

Pentium II(C1999 年 ，8. 2M 个 晶体 管 )。 引 入 了 SSE， 这 是 一 类 处 理 整数 或 浮 点 数 向 
量 的 指令 。 每 个 数据 可 以 是 1、2 或 4 个 字 节 ， 打 包 成 128 位 的 向 量 。 由 于 芯片 上 包括 了 
”二 级 高 速 缓存 ， 这 种 芯片 后 来 的 版 本 最 多 使 用 了 24M 个 晶体 管 。 

Pentium 4(2000 年 ，42M 个 晶体 管 )。SSE 扩展 到 了 SSE2， 增 加 了 新 的 数据 类 型 ( 包 
括 双 精 度 浮 点 数 ) ， 以 及 针对 这 些 格式 的 144 条 新 指令 。 有 了 这 些 扩展 ， 编 译 器 可 以 使 用 
SSE 指令 (而 不 是 x87 指令 )， 来 编译 浮 点 代码 。 

Pentium 4E(2004 年 ，125M 个 晶体 管 )。 增 加 了 超 线程 (hyperthreading)， 这 种 技术 
可 以 在 一 个 处 理 器 上 同时 运行 两 个 程序 ;还 增加 了 EM64T， 它 是 Intel 对 AMD 提出 的 对 
IA32 的 64 位 扩展 的 实现 ， 我 们 称 之 为 x86-64。 

Core 2(2006 年 ，291M 个 晶体 管 )。 回 归 到 类 似 于 P6 的 微 体系 结构 。Intel 的 第 一 个 
多 核 微 处 理 器 ， 即 多 处 理 器 实现 在 一 个 芯片 上 。 但 不 支持 超 线 程 。 

Core 订 ，Nehalem(2008 年 ，781M 个 晶体 管 )。 既 支持 超 线 程 ， 也 有 多 核 ， 最 初 的 版 
本 支持 每 个 核 上 执行 两 个 程序 ， 每 个 芯片 上 最 多 四 个 核 。 

Core 这 ，Sandy Bridge(2011 年 ，1.17G 个 晶体 管 )。 引 入 了 AVX， 这 是 对 SSE 的 扩 
展 ， 支 持 把 数据 封装 进 256 位 的 向 量 。 

Core 订 ，Haswell(2013 年 ，1. 4G 个 晶体 管 )。 将 AVX 扩展 至 AVX2， 增 加 了 更 多 的 














指令 和 指令 格式 。 

每 个 后 继 处 理 器 的 设计 都 是 后 向 兼容 的 一 一 较 早 版 本 上 编译 的 代码 可 以 在 较 新 的 处 理 
器 上 运行 。 正 如 我 们 看 到 的 那样 ， 为 了 保持 这 种 进化 传统 ， 指 令 集 中 有 许多 非常 奇怪 的 东 
西 。Intel 处 理 器 系列 有 好 几 个 名 字 ,， 包括 IA32， 也 就 是 “Intel 32 位 体系 结构 (Intel 
Architecture 32-bit)”， 以 及 最 新 的 Intel64， 即 IA32 的 64 位 扩展 ， 我 们 也 称 为 x86-64。 
最 常用 的 名 字 是 “x86”， 我 们 用 它 指 代 整 个 系列 ， 也 反映 了 直到 i486 处 理 器 命名 的 惯例 。 


摩尔 定律 (Moore's Law) 
如 果 我 们 画 出 各 种 不 同 的 Intel 处 理 器 中 晶体 管 的 数量 与 它们 出 现 的 年 份 之 间 的 图 
(y 轴 为 晶体 管 数量 的 对 数值 )， 我 们 能 够 看 出 ， 增 长 是 很 显著 的 。 画 一 条 拟 合 这 些 数据 
的 线 ， 可 以 看 到 晶体 管 数 量 以 每 年 大 约 37 听 的 速率 增加 ， 也 就 是 说 ， 晶 体 管 数量 每 26 
个 月 就 会 翻 一 番 。 在 x86 微 处 理 器 的 历史 上 ， 这 种 增长 已 经 持续 了 好 几 十 年 。 
Intel 微 处 理 器 的 复杂 性 


., Haswell 
Sandybridge x, 
Ky 
Nehalem © 
Pentium 4e Core 2 Duo 


OQ 
> 


1.0E + 10 











1.0E + 09 










PentiumPro Pentium 亚 
反 1.0E+ 07 一 一 
, C Pentium II 

10B+06 mn 

1.0E + 05 二 

1.0E + 04 

1975 1980 1985 1990 1995 2000 2005 2010 2015 
年 份 


1965 年 ，Gordon Moore，Intel 公司 的 创始 人 ， 根 据 当 时 的 芯片 技术 ( 那 时 他 们 能 够 在 
一 个 芯片 上 制造 有 大 约 64 个 晶体 管 的 电路 ) 做 出 推断 ， 预 测 在 未 来 10 年 ， 芯 片上 的 晶体 
管 数量 每 年 都 会 翻 一 番 。 这 个 预测 就 称 为 摩尔 定律 。 正 如 事实 证 明 的 那样 ， 他 的 预测 有 点 乐 
观 ， 而 且 短 视 。 在 超过 50 年 中 ， 半 导体 工业 一 直 能 够 使 得 晶体 管 数 目 每 18 个 月 翻 一 倍 。 

对 计算 机 技术 的 其 他 方面 ， 也 有 类 似 的 呈 指 数 增长 的 情况 出 现 ， 比 如 磁盘 和 半导体 
存储 器 的 存储 容量 。 这 些 惊 人 的 增长 速度 一 直 是 计算 机 革命 的 主要 驱动 力 。 


这 些 年 来 ， 许 多 公司 生产 出 了 与 Intel 处 理 器 兼容 的 处 理 器 ， 能 够 运行 完全 相同 的 机 
器 级 程序 。 其 中 ， 领 头 的 是 AMD。 数 年 来 ，AMD 在 技术 上 紧 跟 Intel， 执 行 的 市 场 策 略 
是 : 生产 性 能 稍 低 但 是 价格 更 便宜 的 处 理 器 。2002 年 ，AMD 的 处 理 器 变 得 更 加 有 竞争 
力 ， 它们 率先 突破 了 可 商用 微 处 理 器 的 1GHz 的 时 钟 速度 屏障 ， 并 且 引 入 了 广泛 采用 的 
IA32 的 64 位 扩展 x86-64。 虽 然 我 们 讲 的 是 Intel 处 理 器 ,但 是 对 于 其 竞争 对 手 生 产 的 与 
之 兼容 的 处 理 器 来 说 ， 这 些 表述 也 同样 成 立 。 

对 于 由 GCC 编译 器 产生 的 、 在 Linux 操作 系统 平台 上 运行 的 程序 ， 感 兴趣 的 人 大 多 并 不 
关心 x86 的 复杂 性 。 最 初 的 8086 提供 的 内 存 模型 和 它 在 80286 中 的 扩展 ， 到 i386 的 时 候 就 
都 已 经 过 时 了 。 原 来 的 x87 浮 点 指令 到 引入 SSE2 以 后 就 过 时 了 。 虽 然 在 x86-64 程序 中 ， 我 
们 能 看 到 历史 发 展 的 痕迹 ， 但 x86 中 许多 最 星 涩 难 懂 的 特性 已 经 不 会 出 现 了 。 


第 3 章 程序 的 机 器 级 表示 113 











3.2 程序 编码 
假设 一 个 C 程序 ， 有 两 个 文件 pl.c 和 p2.c。 我 们 用 Unix 命令 行 编译 这 些 代 码 : 
linux> gcc -0g -o p pi.c p2.c 


命令 gcc 指 的 就 是 GCC C 编译 器 。 因 为 这 是 Linux 上 默认 的 编译 器 ， 我 们 也 可 以 简 
单 地 用 cc 来 启动 它 。 编 译 选项 -og 告诉 编译 器 使 用 会 生成 符合 原始 C 代码 整体 结构 的 机 
器 代码 的 优化 等 级 。 使 用 较 高 级 别 优化 产生 的 代码 会 严重 变形 ， 以 至 于 产生 的 机 器 代码 和 
初始 源 代 码 之 间 的 关系 非常 难以 理解 。 因 此 我 们 会 使 用 -og 优化 作为 学 习 工 具 ， 然 后 当 我 
们 增加 优化 级 别 时 ， 再 看 会 发 生 什么 。 实 际 中 ， 从 得 到 的 程序 的 性 能 考虑 ， 较 高 级 别 的 优 
化 (例如 ， 以 选项 -ol 或 -02 指定 ) 被 认为 是 较 好 的 选择 。 

实际 上 gcc 命令 调用 了 一 整套 的 程序 ， 将 源 代码 转化 成 可 执行 代码 。 首 先 ，C 预 处 理 
器 扩展 源 代 码 ， 插 人 所 有 用 #include 命令 指定 的 文件 ， 并 扩展 所 有 用 #define 声明 指定 
的 宏 。 其 次 ， 编 译 器 产生 两 个 源 文件 的 汇编 代码 ， 名 字 分 别 为 pl.s 和 p2.s。 接 下 来 ， 江 
编 器 会 将 汇编 代码 转化 成 二 进 制 目标 代码 文件 pl.o 和 p2.o。 目 标 代 码 是 机 器 代码 的 一 种 
形式 ， 它 包含 所 有 指令 的 二 进 制 表示 ， 但 是 还 没有 填 和 人 全 局 值 的 地 址 。 最 后 ， 链 接 器 将 两 
个 目标 代码 文件 与 实现 库 函 数 ( 例 如 printf) 的 代码 合并 ， 并 产生 最 终 的 可 执行 代码 文件 P 
(由 命令 行 指示 符 -o p 指定 的 ) 。 可 执行 代码 是 我 们 要 考虑 的 机 器 代码 的 第 二 种 形式 ， 也 就 
是 处 理 器 执行 的 代码 格式 。 我 们 会 在 第 7 章 更 详细 地 介绍 这 些 不 同形 式 的 机 器 代码 之 间 的 
关系 以 及 链接 的 过 程 。 


3.2.1 机 器 级 代码 


正如 在 1. 9. 3 节 中 讲 过 的 那样 ， 计 算 机 系统 使 用 了 多 种 不 同形 式 的 抽象 ， 利 用 更 简单 
的 抽象 模型 来 隐藏 实现 的 细节 。 对 于 机 器 级 编程 来 说 ， 其 中 两 种 抽象 尤为 重要 。 第 一 种 是 
由 指令 集体 系 结构 或 指令 集 架构 (JInstruction Set Architecture，ISA) 来 定义 机 器 级 程序 的 
格式 和 行为 ， 它 定义 了 处 理 器 状态 、 指 令 的 格式 ， 以 及 每 条 指令 对 状态 的 影响 。 大 多 数 
ISA,， 包括 x86-64， 将 程序 的 行为 描述 成 好 像 每 条 指令 都 是 按 顺 序 执行 的 ， 一 条 指令 结束 
后 ， 下 一 条 再 开始 。 处 理 器 的 硬件 远 比 描述 的 精细 复杂 ， 它 们 并 发 地 执行 许多 指令 ， 但 是 可 
以 采取 措施 保证 整体 行为 与 ISA 指定 的 顺序 执行 的 行为 完全 一 致 。 第 二 种 抽象 是 ， 机 器 级 程 
序 使 用 的 内 存 地 址 是 虚拟 地 址 ， 提 供 的 内 存 模型 看 上 去 是 一 个 非常 大 的 字 节 数组 。 存 储 器 系 
统 的 实际 实现 是 将 多 个 硬件 存储 器 和 操作 系统 软件 组 合 起 来 ， 这 会 在 第 9 章 中 讲 到 。 

在 整个 编译 过 程 中 ， 编 译 器 会 完成 大 部 分 的 工作 ， 将 把 用 C 语 言 提 供 的 相对 比较 抽象 的 
执行 模型 表示 的 程序 转化 成 处 理 器 执行 的 非常 基本 的 指令 。 汇 编 代 码 表示 非常 接近 于 机 器 代 
码 。 与 机 器 代码 的 二 进 制 格式 相 比 ， 汇 编 代 码 的 主要 特点 是 它 用 可 读 性 更 好 的 文本 格式 表示 。 
能 够 理解 汇编 代码 以 及 它 与 原始 C 代码 的 联系 ， 是 理解 计算 机 如 何 执行 程序 的 关键 一 步 。 

x86-64 的 机 器 代码 和 原始 的 C 代码 差别 非常 大 。 一 些 通常 对 C 语言 程序 员 隐 藏 的 处 
理 器 状态 都 是 可 见 的 : 

e@ 程序 计数 器 (通常 称 为 “PC”， 在 x86-64 中 用 srip 表示 ) 给 出 将 要 执行 的 下 一 条 指 

令 在 内 存 中 的 地 址 。 





名 ”GCC 版 本 4.8 引入 了 这 个 优化 等 级 。 较 早 的 GCC 版 本 和 其 他 一 些 非 GNU 编译 器 不 认识 这 个 选项 。 对 这 样 一 
些 编译 器 ， 使 用 一 级 优化 (由 命令 行 标志 -ol 指定 ) 可 能 是 最 好 的 选择 ， 生 成 的 代码 能 够 符合 原始 程序 的 结构 。 
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e 整数 寄存 器 文件 包含 16 个 命名 的 位 置 ， 分 别 存储 64 位 的 值 。 这 些 寄存 器 可 以 存储 地 址 

(对 应 于 C 语言 的 指针 ) 或 整数 数据 。 有 的 寄存 器 被 用 来 记录 某 些 重 要 的 程序 状态 ， 而 其 

他 的 寄存 器 用 来 保存 临时 数据 ， 例 如 过 程 的 参数 和 局 部 变量 ， 以 及 函数 的 返回 值 。 

e 条 件 码 寄存 器 保存 着 最 近 执行 的 算术 或 逻辑 指令 的 状态 信息 。 它 们 用 来 实现 控制 或 

数据 流 中 的 条 件 变 化 ， 比 如 说 用 来 实现 if 和 while 语句 。 

e 一 组 向 量 寄存 器 可 以 存放 一 个 或 多 个 整数 或 浮 点 数值 。 

虽然 C 语 言 提供 了 一 种 模型 ， 可 以 在 内 存 中 声明 和 分 配 各 种 数据 类 型 的 对 象 ， 但 是 机 器 
代码 只 是 简单 地 将 内 存 看 成 一 个 很 大 的 、 按 字 节 寻 址 的 数组 。C 语言 中 的 聚合 数据 类 型 ， 例 
如 数组 和 结构 ， 在 机 器 代码 中 用 一 组 连续 的 字 节 来 表示 。 即 使 是 对 标量 数据 类 型 ， 汇 编 代 码 
也 不 区 分 有 符号 或 无 符号 整数 ， 不 区 分 各 种 类 型 的 指针 ， 甚 至 于 不 区 分 指针 和 整数 。 

程序 内 存 包 含 : 程序 的 可 执行 机 器 代码 ， 操 作 系统 需要 的 一 些 信 息 ， 用 来 管理 过 程 调 
用 和 返回 的 运行 时 栈 ， 以 及 用 户 分 配 的 内 存 块 ( 比 如 说 用 malloc 库 函 数 分 配 的 ) 。 正 如 前 
面 提 到 的 ， 程 序 内 存 用 虚拟 地 址 来 寻 址 。 在 任意 给 定 的 时 刻 ， 只 有 有 限 的 一 部 分 虚拟 地 址 
被 认为 是 合法 的 。 例 如 ，x86-64 的 虚拟 地 址 是 由 64 位 的 字 来 表示 的 。 在 目前 的 实现 中 ， 
这 些 地址 的 高 16 位 必须 设置 为 0， 所 以 一 个 地 址 实际 上 能 够 指定 的 是 2* 或 64TB 范围 内 
的 一 个 字 节 。 较 为 典型 的 程序 只 会 访问 几 兆 字 节 或 几 千 兆 字 节 的 数据 。 操 作 系 统 负责 管理 
虚拟 地 址 空间 ， 将 虚拟 地 址 翻译 成 实际 处 理 器 内 存 中 的 物理 地 址 。 

一 条 机 器 指令 只 执行 一 个 非常 基本 的 操作 。 例 如 ， 将 存放 在 寄存 器 中 的 两 个 数字 相 加 ， 
在 存储 器 和 寄存 器 之 间 传送 数据 ， 或 是 条 件 分 支 转移 到 新 的 指令 地 址 。 编 译 器 必须 产生 这 些 
指令 的 序列 ， 从 而 实现 ( 像 算 术 表 达 式 求 值 、 循 环 或 过 程 调 用 和 返回 这 样 的 ) 程 序 结构 。 


芒 要 不 断 变化 的 生成 代码 的 格式 

在 本 书 的 表述 中 ， 我 们 给 出 的 代码 是 由 特定 版 本 的 GCC 在 特定 的 命令 行 选项 设置 
下 产生 的 。 如 果 你 在 自己 的 机 器 上 编译 代码 ， 很 有 可 能 用 到 其 他 的 编译 器 或 者 不 同 版 本 
的 GCC， 因 而 会 产生 不 同 的 代码 。 支 持 GCC 的 开源 社区 一 直 在 修改 代码 产生 器 ， 试 图 
根据 微 处 理 器 制造 商 提供 的 不 断 变化 的 代码 规则 ， 产 生 更 有 效 的 代码 。 

本 书 示 例 的 目标 是 展示 如 何 查 看 汇编 代码 ， 并 将 它 反 向 映射 到 高 级 编程 语言 中 的 结 
构 。 你 需要 将 这 些 技 术 应 用 到 你 的 特定 的 编译 器 产生 的 代码 格式 上 。 


3.2.2 代码 示例 
假设 我 们 写 了 一 个 C 语言 代码 文件 mstore.c， 包 含 如 下 的 函数 定义 : 
long mult2(long, long); 
void multstore(long x, long y, long *dest) { 
long t = mult2(x, y); 


*dest = 七; 


在 命令 行 上 使 用 “-s” 选 项 ， 就 能 看 到 C 语言 编译 器 产生 的 汇编 代码 : 
linux> gcc -0g -S mstore.c 


这 会 使 GCC 运行 编译 器 ， 产 生 一 个 汇编 文件 mstore.s， 但 是 不 做 其 他 进一步 的 工 
作 。( 通 常情 况 下 ， 它 还 会 继续 调用 汇编 器 产生 目标 代码 文件 )。 
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汇编 代码 文件 包含 各 种 声明 ， 包 括 下 面 几 行 : 
multstore: 

pushq  %rbx 

movqg %rdx, %rbx 

call mult2 


movdq %rax, (%rbx) 
popq %rbx 
ret 


上 面 代码 中 每 个 缩 进 去 的 行 都 对 应 于 一 条 机 器 指令 。 比 如 ，pushq 指令 表示 应 该 将 寄存 器 $ 
rbx 的 内 容 压 人 程序 栈 中 。 这 段 代 码 中 已 经 除去 了 所 有 关于 局 部 变量 名 或 数据 类 型 的 信息 。 
如 果 我 们 使 用 “-c” 命 令 行 选 项 ，GCC 会 编译 并 汇编 该 代码 : 


linux> gcc -0g -c mstore.c 


这 就 会 产生 目标 代码 文件 mstore.o， 它 是 二 进 制 格式 的 ， 所 以 无 法 直接 查看 。1368 字 节 
的 文件 mstore.o 中 有 一 段 14 字 节 的 序列 ， 它 的 十 六 进 制 表示 为 : 

53 48 89 d3 e8 00 00 00 00 48 89 03 5b c3 
这 就 是 上 面 列 出 的 汇编 指令 对 应 的 目标 代码 。 从 中 得 到 一 个 重要 信息 ， 即 机 器 执行 的 程序 只 
是 一 个 字 节 序列 ， 它 是 对 一 系列 指令 的 编码 。 机 器 对 产生 这 些 指令 的 源 代码 几乎 一 无 所 知 。 


区 了 如 何 展示 程序 的 字 节 表示 

要 展示 程序 (比如 说 mstore) 的 二 进 制 目标 代码 ， 我 们 用 反 汇 编 器 (后 面 会 讲 到 ) 确 
定 该 过 程 的 代码 长 度 是 14 字 节 。 然 后 ， 在 文件 mstore.o 上 运行 GNU 调试 工具 GDB， 
输入 命令 : 

(gdb) x/14xb multstore 


这 条 命令 告诉 GDB 显示 (简写 为 ‘x’) 从 函数 multstore 所 处 地 址 开始 的 14 个 十 六 进 制 
格式 表示 (也 简写 为 “x”) 的 字 节 (简写 为 ‘b”)。 你 会 发 现 ，GDB 有 很 多 有 用 的 特性 可 以 
用 来 分 析 机 器 级 程序 ， 我 们 会 在 3.10.2 节 中 讨论 。 


要 查看 机 器 代码 文件 的 内 容 ， 有 一 类 称 为 反 汇 编 器 (disassembler) 的 程序 非常 有 用 。 
这 些 程序 根据 机 器 代码 产生 一 种 类 似 于 汇编 代码 的 格式 。 在 Linux 系统 中 ， 带 “ -qd’ 命 令 行 
标志 的 程序 OBJDUMP( 表 示 “object dump”) 可 以 充当 这 个 角色 : 


linux> objdump -~d mstore.o 


结果 如 下 (这 里 ， 我 们 在 左边 增加 了 行 号 ， 在 右边 增加 了 和 斜体 表示 的 注解 ) : 


Disassembly of function multstore in binary file mstore.o 
| 0000000000000000 <multstore>: 


Offset Bytes Equivalent assembly language 
2 0: 53 Push  %rbx 
1: 48 89 d3 moVv %rdx ,hrbx 
4 4: e8 00 00 00 00 Callq 9 <multstore+0x9> 
5 9: 48 89 03 moV %rax, (Xrbx) 
6 c: 5b pop %rbx 
7 d: c3 retq 


在 左边 ， 我 们 看 到 按照 前 面 给 出 的 字 节 顺序 排列 的 14 个 十 六 进 制 字 节 值 ， 它 们 分 成 了 若 
干 组 ， 每 组 有 1 一 5 个 字 节 。 每 组 都 是 一 条 指令 ， 右 边 是 等 价 的 汇编 语言 。 





其 中 一 些 关 于 机 器 代码 和 它 的 反 汇 编 表 示 的 特性 值得 注意 : 

e x86-64 的 指令 长 度 从 1 到 15 个 字 节 不 等 。 常 用 的 指令 以 及 操作 数 较 少 的 指令 所 需 
的 字 节 数 少 ， 而 那些 不 太 常用 或 操作 数 较 多 的 指令 所 需 字 节 数 较 多 。 

e 设计 指令 格式 的 方式 是 ， 从 某 个 给 定位 置 开 始 ， 可 以 将 字 节 唯一 地 解码 成 机 器 指 
令 。 例 如 ， 只 有 指令 pushq %rbx 是 以 字 节 值 53 开头 的 。 

e 反 汇 编 器 只 是 基于 机 器 代码 文件 中 的 字 节 序列 来 确定 汇编 代码 。 它 不 需要 访问 该 程 
序 的 源 代码 或 汇编 代码 。 

e 反 汇 编 器 使 用 的 指令 命名 规则 与 GCC 生成 的 汇编 代码 使 用 的 有 些 细微 的 差别 。 在 
我 们 的 示例 中 ， 它 省 略 了 很 多 指令 结尾 的 “gq?”。 这 些 后 缀 是 大 小 指示 符 ， 在 大 多 数 
情况 中 可 以 省 略 。 相 反 ， 反 汇编 器 给 call 和 ret 指令 添加 了 “qq? 后 级， 同样 ， 省 略 
这 些 后 级 也 没有 问题 。 

生成 实际 可 执行 的 代码 需要 对 一 组 目标 代码 文件 运行 链接 器 ， 而 这 一 组 目标 代码 文件 

中 必须 含有 一 个 main 函数 。 假 设 在 文件 main.c 中 有 下 面 这 样 的 函数 ， 


#include <stdio.h> 
void multstore(long, long, long *); 


int main() { 
long d; 
multstore(2, 3, &d); 
printf("2 * 3 --> %ld\n", d); 
return 0; 

学 

long mult2(long a, long b) { 
long s = a* Db; 
return s; 


} 
然后 ， 我 们 用 如 下 方法 生成 可 执行 文件 prog: 


linux> gcc -0g -o prog main.c mstore.c 
文件 prog 变 成 了 8 655 个 字 节 ， 因 为 它 不 仅 包含 了 两 个 过 程 的 代码 ， 还 包含 了 用 来 启动 和 
终止 程序 的 代码 ， 以 及 用 来 与 操作 系统 交互 的 代码 。 我 们 也 可 以 反 汇 编 prog 文件 : 
linux> objdump -d prog 
反 汇 编 器 会 抽取 出 各 种 代码 序列 ， 包 括 下 面 这 段 : 


Disassembly of function sum multstore binary file prog 


1 0000000000400540 <multstore>: 

2 400540: 53 push  %rbx 

3 400541: 48 89 d3 moV %rdx,%rbx 

4 400544: ee8 42 00 00 00 callq 40058b <mult2> 
5 400549: 48 89 03 mov %rax, (Xrbx) 

6 40054c: 5b pop %rbx 

7 40054d: c3 retq 

8 40054e: 90 nop 

a 40054f: 90 nop 


这 段 代 码 与 mstore.c 反 汇编 产生 的 代码 几乎 完全 一 样 。 其 中 一 个 主要 的 区 别 是 左边 
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列 出 的 地 址 不 同一 一 链接 器 将 这 段 代码 的 地 址 移 到 了 一 段 不 同 的 地 址 范围 中 。 第 二 个 不 同 
之 处 在 于 链接 器 填 上 了 callg 指令 调用 函数 mult2 需要 使 用 的 地 址 ( 反 汇 编 代 码 第 4 行 )。 
链接 器 的 任务 之 一 就 是 为 函数 调用 找到 匹配 的 函数 的 可 执行 代码 的 位 置 。 最 后 一 个 区 别 是 
多 了 两 行 代码 (第 8 和 9 行 )。 这 两 条 指令 对 程序 没有 影响 ， 因 为 它们 出 现在 返回 指令 后 面 
(第 7 行 )。 插 入 这 些 指令 是 为 了 使 函数 代码 变 为 16 字 节 ， 使 得 就 存储 器 系统 性 能 而 言 ， 
能 更 好 地 放置 下 一 个 代码 块 。 


3.2.3 关于 格式 的 注解 


GCC 产生 的 汇编 代码 对 我 们 来 说 有 点 儿 难 读 。 一 方面 ， 它 包含 一 些 我 们 不 需要 关心 
的 信息 ， 另 一 方面 ， 它 不 提供 任何 程序 的 描述 或 它 是 如 何 工 作 的 描述 。 人 例如， 假设 我 们 用 
如 下 命令 生成 文件 mstore.s。 


linux> gcc -0g -3 mstore.c 


mstore.s 的 完整 内 容 如 下 : 


.file "010-mstore.c" 

.text 

.globl multstore 

‘type multstore, @function 


multstore: 
pushq %rbx 
movqg %rdx, %rbx 
call mult2 
movdq %rax, (%rbx) 
popq %rbx 
ret 


.Size multstore, .-multstore 
.ident "GCC: (Ubuntu 4.8.1-2ubuntul~12.04) 4.8.1" 
.Section .note.GNU-stack,"",@progbits 


所 有 以 “. ?开头 的 行 都 是 指导 汇编 器 和 链接 器 工作 的 伪 指 令 。 我 们 通常 可 以 忽略 这 些 
行 。 另 一 方面 ， 也 没有 关于 指令 的 用 途 以 及 它们 与 源 代码 之 间 关 系 的 解释 说 明 。 

为 了 更 清楚 地 说 明 汇编 代码 ， 我 们 用 这 样 一 种 格式 来 表示 汇编 代码 ， 它 省 略 了 大 部 分 
伪 指 令 ， 但 包括 行 号 和 解释 性 说 明 。 对 于 我 们 的 示例 ， 带 解释 的 汇编 代码 如 下 : 


void multstore(long x, long y, long *dest) 


TX ln Wrdi, y in Wrsi, dest in Xrdx 


1 multstore: 

2 pushq  %rbx Save Yrbx 

3 movq %rdx, %rbx Copy dest to Yrbx 

4 call mult2 CT malt2(x, y) 

5 movq Wrax, (%rbx) Store result at *dest 
6 popq %rbx Restore Yrbx 

水 ret Return 


通常 我 们 只 会 给 出 与 讨论 内 容 相 关 的 代码 行 。 每 一 行 的 左边 都 有 编号 供 引 用 ， 右 边 是 
注释 ， 简 单 地 描述 指令 的 效果 以 及 它 与 原始 C 语言 代码 中 的 计算 操作 的 关系 。 这 是 一 种 汇 
编 语言 程序 员 写 代码 的 风格 。 

我 们 还 提供 网 络 旁 注 ， 为 专门 的 机 器 语言 爱好 者 提供 一 些 资料 。 一 个 网 络 旁 注 描 述 的 
是 IA32 机 器 代码 。 有 了 x86-64 的 背景 ， 学 习 IA32 会 相当 简单 。 另 外 一 个 网 络 旁 注 简要 
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描述 了 在 C 语言 中 插入 汇编 代码 的 方法 。 对 于 一 些 应 用 程序 ， 程 序 员 必 须 用 汇编 代码 来 访 
问 机 器 的 低级 特性 。 一 种 方法 是 用 汇编 代码 编写 整个 函数 ， 在 链接 阶段 把 它们 和 C 函数 组 
合 起 来 。 另 一 种 方法 是 利用 GCC 的 支持 ， 直 接 在 C 程序 中 嵌 人 汇编 代码 。 


旁 注 ATT 与 Intel 汇编 代码 格式 

我 们 的 表述 是 ATT( 根 据 “AT&T” 命 名 的 ，AT&&T 是 运营 贝尔 实验 室 多 年 的 公 
司 ) 格 式 的 汇编 代码 ， 这 是 GCC、OBJDUMP 和 其 他 一 些 我 们 使 用 的 工具 的 默认 格式 。 
其 他 一 些 编程 工具 ， 包 括 Microsoft 的 工具 ， 以 及 来 自 Intel 的 文档 ， 其 汇编 代码 都 是 
Intel 格式 的 。 这 两 种 格式 在 许多 方面 有 所 不 同 。 例 如 ， 使 用 下 述 命令 行 ，GCC 可 以 产 
生 multstore 函数 的 Intel 格式 的 代码 : 


linux> gcc -Ug -S -masm=intel mstore.c 


这 个 命令 得 到 下 列 汇编 代码 : 


multstore: 
push rbx 
mov rbxs Tdx 
call mult2 
mov QWORD PTR [rbx], rax 
pop rbx 
ret 


我 们 看 到 Intel 和 ATT 格式 在 如 下 方面 所 不 同 : 

@ Intel 代码 省 略 了 指示 大 小 的 后 组 。 我 们 看 到 指令 push 和 mov， 而 不 是 pushq 和 movq。 

@ Intel 代码 省 略 了 寄存 器 名 字 前 面 的 4g 符号， 用 的 是 rbx， 而 不 是 Srbx。 

@ Intel 代码 用 不 同 的 方式 来 描述 内 存 中 的 位 置 ， 例如 是 ‘QWORD PTR [rbx] 而 不 是 
“ (Srbx)’。 

@ 在 带 有 多 个 操作 数 的 指令 情况 下 ， 列 出 操作 数 的 顺序 相反 。 当 在 两 种 格式 之 间 进 
行 转换 的 时 候 ， 这 一 点 非常 令 人 困惑 。 

虽然 在 我 们 的 表述 中 不 使 用 Intel 格式 ， 但 是 在 来 自 Intel 和 Microsoft 的 文档 中 ， 

你 会 遇 到 它 。 


有 st 上 把 C 程序 和 汇编 代码 结合 起 来 

虽然 C 编译 器 在 把 程序 中 表达 的 计算 转换 到 机 器 代码 方面 表现 出 色 ， 但 是 仍然 有 一 
些 机 器 特性 是 C 程序 访问 不 到 的 。 例 如 ， 每 次 x86-64 处 理 器 执行 算术 或 逻辑 运算 时 ， 
如 果 得 到 的 运算 结果 的 低 8 位 中 有 偶数 个 1， 那 么 就 会 把 一 个 名 为 PF 的 1 位 条 件 码 
(condition code) 标 志 设置 为 1， 否则 就 设置 为 0。 这 里 的 PF 表示 “parity flag( 奇 偶 标 
志 )”。 在 Ci 语言 中 计算 这 个 信息 需要 至 少 7 次 移 位 、 掩 码 和 异 或 运算 (参见 习题 2. 65) 。 
即使 作为 每 次 算术 或 逻辑 运算 的 一 部 分 ,硬件 都 完成 了 这 项 计算 ,而 C 程序 却 无 法 知道 
PF 条 件 码 标志 的 值 。 在 程序 中 插入 几 条 汇编 代码 指令 就 能 很 容易 地 完成 这 项 任务 。 

在 C 程 序 中 插入 汇编 代码 有 两 种 方法 。 第 一 种 是 ， 我 们 可 以 编写 完整 的 函数 ， 放 进 
一 个 独立 的 汇编 代码 文件 中 ， 让 汇编 器 和 链接 器 把 它 和 用 C 语言 书写 的 代码 合并 起 来 。 
第 二 种 方法 是 ， 我 们 可 以 使 用 GCC 的 内 联 汇编 (inline assembly) 特 性 ， 用 asm 伪 指令 可 
以 在 CC 程序 中 包含 简短 的 汇编 代码 。 这 种 方法 的 好 处 是 减少 了 与 机 器 相关 的 代码 量 。 
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当然 ， 在 CC 程序 中 包含 汇编 代码 使 得 这 些 代码 与 某 类 特殊 的 机 器 相关 (例如 x86- 
64)， 所 以 只 应 该 在 想 要 的 特性 只 能 以 此 种 方式 才能 访问 到 时 才 使 用 它 。 


3.3 数据 格式 


由 于 是 从 16 位 体系 结构 扩展 成 32 位 的 ，Intel 用 术语 “ 字 (word)” 表 示 16 位 数据 类 
型 。 因 此 ， 称 32 位 数 为 “ 双 字 (double words)”， 称 64 位 数 为 “四 字 (quad words)”。 
图 3-1 给 出 了 C 语言 基本 数据 类 型 对 应 的 x86-64 表示 。 标 准 int 值 存储 为 双 字 (32 位 )。 
指针 (在 此 用 char * 表示 ) 存 储 为 8 字 节 的 四 字 ，64 位 机 器 本 来 就 预期 如 此 。x86-64 中 ， 
数据 类 型 long 实现 为 64 位 ， 人 允许 表示 的 值 范围 较 大 。 本 章 代 码 示例 中 的 大 部 分 都 使 用 了 
指针 和 long 数据 类 型 ， 所 以 都 是 四 字 操 作 。x86-64 指令 集 同 样 包 括 完整 的 针对 字 节 、 字 
和 双 字 的 指令 。 





























C 声明 Intel 数据 类 型 汇编 代码 后 缀 大 小 ( 字 节 ) 
char 字 节 b 1 
short 字 w 2 
全 
float 单 精 度 S 4 





图 3-1 C 语言 数 据 类 型 在 x86-64 中 的 大 小 。 在 64 位 机 器 中 ， 指 针 长 8 字 节 


浮 点 数 主 要 有 两 种 形式 : 单 精度 (4 字 节 ) 值 ， 对 应 于 C 语言 数据 类 型 float; 双 精 度 
(8 字 节 ) 值 ， 对 应 于 C 语言 数据 类 型 double。x86 家 族 的 微 处 理 器 历史 上 实现 过 对 一 种 特 
” 殊 的 80 位 (10 字 节 ) 浮 点 格式 进行 全 套 的 浮 点 运算 (参见 家 庭 作 业 2. 86) 。 可 以 在 C 程序 中 
用 声明 long double 来 指定 这 种 格式 。 不 过 我 们 不 建议 使 用 这 种 格式 。 它 不 能 移植 到 其 他 
类 型 的 机 器 上 ， 而 且 实 现 的 硬件 也 不 如 单 精 度 和 双 精 度 算术 运算 的 高 效 。 

如 图 所 示 ， 大 多 数 GCC 生成 的 汇编 代码 指令 都 有 一 个 字符 的 后 级 ， 表 明 操 作 数 的 大 
小 。 例如， 数据 传送 指令 有 四 个 变种 : movb( 传 送 字 节 )、movw( 传 送 字 )、mov1( 传 送 双 
字 ) 和 movq( 传 送 四 字 )。 后 缀 “1’ 用 来 表示 双 字 ， 因 为 32 位 数 被 看 成 是 “长 字 (1ong 
word)”。 注意 ， 汇 编 代码 也 使 用 后 缀 1’ 来 表示 4 字 节 整数 和 8 字 节 双 精 度 浮 点 数 。 这 不 
会 产生 歧义 ， 因 为 浮 点 数 使 用 的 是 一 组 完全 不 同 的 指令 和 寄存 器 。 


3.4 访问 信息 

一 个 x86-64 的 中 央 处 理 单元 (CPU) 包 含 一 组 16 个 存储 64 位 值 的 通用 目的 寄存 器 。 
这 些 寄存 器 用 来 存储 整数 数据 和 指针 。 图 3-2 显示 了 这 16 个 寄存 器 。 它 们 的 名 字 都 以 $r 
开头 ， 不 过 后 面 还 跟着 一 些 不 同 的 命名 规则 的 名 字 ， 这 是 由 于 指令 集 历史 演化 造成 的 。 最 
初 的 8086 中 有 8 个 16 位 的 寄存 器 ， 即 图 3-2 中 的 sax 到 sbp。 每 个 寄存 器 都 有 特殊 的 用 
途 ， 它 们 的 名 字 就 反映 了 这 些 不 同 的 用 途 。 扩 展 到 IA32 架构 时 ， 这 些 寄存 器 也 扩展 成 32 
位 寄存 器 ， 标 号 从 seax 到 sebp。 扩 展 到 x86-64 后 ， 原 来 的 8 个 寄存 器 扩展 成 64 位 ， 标 
号 从 srax 到 srbp。 除 此 之 外 ， 还 增加 了 8 个 新 的 寄存 器 ， 它 们 的 标号 是 按照 新 的 命名 规 
则 制定 的 ， 从 sr8 到 sr15。 
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63 31 15 7 0 
[eax Seax Sax gal 返回 值 
被 调用 者 保存 
第 4 个 参数 
第 3 个 参数 
第 2 个 参数 
Srdi Sedi sdi ”|[ sail 省 第 1 个 参数 
%rbp %ebp sbp ”| %bpl jj 被 调用 者 保存 
grsp gesp gsp [sspl | 栈 指针 
%r8 8 gr8d %r8w Sr8b 第 5 个 参数 
sr9d sr9w ”| sr9b 第 6 个 参数 
sr1i0d srl0w [srlob ji 调用 者 保存 
srild Srllw 调用 者 保存 
sr12d Sr12w 被 调用 者 保存 
sr13d srl3w [srl3b | 被 调用 者 保存 
gr14 sr14d %ri4w |[ srl4b ] 被 调用 者 保存 








SUS grl5d rl5w sz15b 被 调用 者 保存 


帮 





图 3-2 整数 寄存 器 。 所 有 16 个 寄存 器 的 低位 部 分 都 可 以 作为 字 节 、 
字 (16 位 )、 双 字 (32 位 ) 和 四 字 (64 位 ) 数 字 来 访问 


如 图 3-2 中 构 套 的 方 框 标明 的 ， 指 令 可 以 对 这 16 个 寄存 器 的 低位 字 节 中 存放 的 不 同 
大 小 的 数据 进行 操作 。 字 节 级 操作 可 以 访问 最 低 的 字 节 ，16 位 操作 可 以 访问 最 低 的 2 个 字 
节 ，32 位 操作 可 以 访问 最 低 的 4 个 字 节 ， 而 64 位 操作 可 以 访问 整个 寄存 器 。 

在 后 面 的 章节 中 ， 我 们 会 展现 很 多 指令 ， 复 制 和 生成 1 字 节 、2 字 节 、4 字 节 和 8 字 
节 值 。 当 这 些 指令 以 寄存 器 作为 目标 时 ， 对 于 生成 小 于 8 字 节 结果 的 指令 ， 寄 存 器 中 剩 下 
的 字 节 会 怎么 样 ， 对 此 有 两 条 规则 : 生成 1 字 节 和 2 字 节 数字 的 指令 会 保持 剩 下 的 字 节 不 
变 ; 生成 4 字 节 数字 的 指令 会 把 高 位 4 个 字 节 置 为 0。 后面 这 条 规则 是 作为 从 IA32 到 
x86-64 的 扩展 的 一 部 分 而 采用 的 。 

就 像 图 3-2 右边 的 解释 说 明 的 那样 ， 在 常见 的 程序 里 不 同 的 寄存 器 扮演 不 同 的 角色 。 
其 中 最 特别 的 是 栈 指针 srsp， 用 来 指明 运行 时 栈 的 结束 位 置 。 有 些 程序 会 明确 地 读 写 这 个 
寄存 器 。 另 外 15 个 寄存 器 的 用 法 更 灵活 。 少 量 指令 会 使 用 某 些 特定 的 寄存 器 。 更 重要 的 
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是 ， 有 一 组 标准 的 编程 规范 控制 着 如 何 使 用 寄存 器 来 管理 栈 、 传 递 函数 参数 、 从 函数 的 返 
回 值 ， 以 及 存储 局 部 和 临时 数据 。 我 们 会 在 描述 过 程 的 实现 时 (特别 是 在 3.7 节 中 )， 讲 述 
这 些 惯例 。 


3.4.1 操作 数 指示 符 


大 多 数 指令 有 一 个 或 多 个 操作 数 (operand)， 指 示 出 执行 一 个 操作 中 要 使 用 的 源 数据 
值 ， 以 及 放置 结果 的 目的 位 置 。x86-64 支持 多 种 操作 数 格式 (参见 图 3-3)。 源 数据 值 可 以 
以 常数 形式 给 出 ， 或 是 从 寄存 器 或 内 存 中 读 出 。 结 果 可 以 存放 在 寄存 器 或 内 存 中 。 因 此 ， 
各 种 不 同 的 操作 数 的 可 能 性 被 分 为 三 种 类 型 。 第 一 种 类 型 是 立即 数 (immediate) ， 用 来 表 
示 常 数值 。 在 ATT 格式 的 汇编 代码 中 ， 立 即 数 的 书写 方式 是 4$? 后 面 跟 一 个 用 标准 C 表 
示 法 表示 的 整数 ， 比 如 ，$-577 或 $0xlF。 不 同 的 指令 允许 的 立即 数值 范围 不 同 ， 汇 编 器 
会 自动 选择 最 紧凑 的 方式 进行 数值 编码 。 第 二 种 类 型 是 寄存 器 (register)， 它 表示 某 个 寄 
存 器 的 内 容 ，16 个 寄存 器 的 低位 1 字 节 、2 字 节 、4 字 节 或 8 字 节 中 的 一 个 作为 操作 数 ， 
这 些 字 节 数 分 别 对 应 于 8 位 、16 位 、32 位 或 64 位。 在 图 3-3 中 ， 我 们 用 符号 r。 来 表示 任 
意 寄存 器 a， 用 引用 RLr, ] 来 表示 它 的 值 ， 这 是 将 寄存 器 集合 看 成 一 个 数组 R， 用 寄存 器 标 
识 符 作 为 索引 。 

第 三 类 操作 数 是 内 存 引 用 ， 它 会 根据 计算 出 来 的 地 址 (通常 称 为 有 效 地 址 ) 访 问 某 个 内 
存 位 置 。 因 为 将 内 存 看 成 一 个 很 大 的 字 节 数组 ， 我 们 用 符号 ww[Adad 门 表示 对 存储 在 内 存 
中 从 地 址 Adar 开始 的 5 个 字 节 值 的 引用 。 为 了 简便 ， 我 们 通常 省 去 下 标 5。 

如 图 3-3 所 示 ， 有 多 种 不 同 的 寻 址 模式 ， 人 允许 不 同形 式 的 内 存 引 用 。 表 中 底部 用 语法 
Imm(r,，r;，s) 表 示 的 是 最 常用 的 形式 。 这 样 的 引用 有 四 个 组 成 部 分 : 一 个 立即 数 偏 移 
Imm， 一 个 基 址 寄存 器 r, ， 一 个 变 址 寄存 器 r; 和 一 个 比例 因子 ;s， 这 里 ; 必须 是 1、2、4 或 者 
8。 基 址 和 变 址 寄存 器 都 必须 是 64 位 寄存 器 。 有 效 地 址 被 计算 为 Imm 十 RL rs] 十 REr;j]。s。 引 
用 数组 元 素 时 ， 会 用 到 这 种 通用 形式 。 其 他 形式 都 是 这 种 通用 形式 的 特殊 情况 ， 只 是 省 略 
了 某 些 部 分 。 正 如 我 们 将 看 到 的 ， 当 引用 数组 和 结构 元 素 时 ， 比 较 复 杂 的 寻 址 模式 是 很 有 
用 的 。 





















MI[R[r,]] 
M[Imm+R[r,]] 
MI[R[r,]+R[r]] 


















Imm(r,) 


(re, T;) 



































Imm(r,, TD) M[Imm+R[r,]+R[r,]] 变 址 寻 址 
存储 器 (ro 5) MI[R[r:] 's] 比例 变 址 寻 址 
| 存储 器 Imm(,r,s) M[Imm+RI[r;] * s] 比例 变 址 寻 址 











存储 器 (rp MI[R[r,]+R[r,] * s] 比例 变 址 寻 址 
存储 器 Immlr,, To S) M[Imm+R[r,]+R[r,] * s] [em | 
图 3-3 操作 数 格式 。 操 作 数 可 以 表示 立即 数 (常数 ) 值 、 寄 存 器 值 或 是 来 自 
内 存 的 值 。 比 例 因子 * 必须 是 1、2、4 或 者 8 


放生 练习 题 3. 1 假设 下 面 的 值 存放 在 指明 的 内 存 地 址 和 寄存 器 中 : 






































$0x108 





(Srax) 








4 {Srax) 





9(%rax, srdx) 





260 (Srcx, Srdx) 
OxFC (, Srcx, 4) 


(Srax, Srdx, 4) 





3.4.2 数据 传送 指令 


最 频繁 使 用 的 指令 是 将 数据 从 一 个 位 置 复制 到 另 一 个 位 置 的 指令 。 操 作 数 表示 的 通用 
性 使 得 一 条 简单 的 数据 传送 指令 能 够 完成 在 许多 机 器 中 要 好 几 条 不 同 指令 才能 完成 的 功 
能 。 我 们 会 介绍 多 种 不 同 的 数据 传送 指令 ， 它 们 或 者 源 和 目的 类 型 不 同 ， 或 者 执行 的 转换 
不 同 ， 或 者 具有 的 一 些 副 作用 不 同 。 在 我 们 的 讲述 中 ， 把 许多 不 同 的 指令 划分 成 指令 类 ， 
每 一 类 中 的 指令 执行 相同 的 操作 ， 只 不 过 操作 数 大 小 不 同 。 

图 3-4 列 出 的 是 最 简单 形式 的 数据 传送 指令 一 一 MOV 类 。 这 些 指令 把 数据 从 源 位 置 
复制 到 目的 位 置 ， 不 做 任何 变化 。MOYV 类 由 四 条 指令 组 成 : movb、movw、movl 和 
movq。 这 些 指令 都 执行 同样 的 操作 ; 主要 区 别 在 于 它们 操作 的 数据 大 小 不 同 : 分 别 是 1、 
2、4 和 8 字 节 。 





= | 

















指令 效果 描述 
[ MOV s, D D<-S 传送 
movb 传送 字 节 
movw 传送 字 
movl 传送 双 字 
movg 传送 四 字 
| movabsq I, R R<-I 传送 绝对 的 四 字 








图 3-4 简单 的 数据 传送 指令 


源 操 作 数 指定 的 值 是 一 个 立即 数 ， 存 储 在 寄存 器 中 或 者 内 存 中 。 目 的 操作 数 指定 一 个 
位 置 ， 要 么 是 一 个 寄存 器 或 者 ， 要 么 是 一 个 内 存 地 址 。x86-64 加 了 一 条 限制 ， 传 送 指令 的 
两 个 操作 数 不 能 都 指向 内 存 位 置 。 将 一 个 值 从 一 个 内 存 位 置 复制 到 另 一 个 内 存 位 置 需要 两 
条 指令 一 一 第 一 条 指令 将 源 值 加 载 到 寄存 器 中 ， 第 二 条 将 该 寄存 器 值 写 人 目的 位 置 。 参 考 
图 3-2， 这 些 指令 的 寄存 器 操作 数 可 以 是 16 个 寄存 器 有 标号 部 分 中 的 任意 一 个 ， 寄 存 器 部 
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分 的 大 小 必须 与 指令 最 后 一 个 字符 (‘b”，“w”，“1? 或 ‘q’) 指 定 的 大 小 匹配 。 大 多 数 情况 
中 ，MOYV 指令 只 会 更 新 目的 操作 数 指定 的 那些 寄存 器 字 节 或 内 存 位 置 。 唯 一 的 例外 是 
mov1 指令 以 寄存 器 作为 目的 时 ， 它 会 把 该 寄存 器 的 高 位 4 字 节 设置 为 0。 造 成 这 个 例外 的 
原因 是 x86-64 采用 的 惯例 ， 即 任何 为 寄存 器 生成 32 位 值 的 指令 都 会 把 该 寄存 器 的 高 位 部 
分 置 成 0。 

下 面 的 MOYV 指令 示例 给 出 了 源 和 目的 类 型 的 五 种 可 能 的 组 合 。 记 住 ， 第 一 个 是 源 操 
作 数 ， 第 二 个 是 目的 操作 数 : 


1 movl] $Ox4050,%eax Immediate--Register, 4 bytes 
2 movw %bp,%sp Register--Register, 2 bytes 
3 movb (%rdi,%rcx),%al Memory--Register, 1 byte 
4 movb $-17,(%rsp) Immediate--Memory, 1 byte 
5 movq %rax,-12(%rbp) Register--Memory, 8 bytes 


图 3-4 中 记录 的 最 后 一 条 指令 是 处 理 64 位 立即 数 数据 的 。 常 规 的 movq 指令 只 能 以 表 
示 为 32 位 补 码 数字 的 立即 数 作为 源 操作 数 ， 然 后 把 这 个 值 符号 扩展 得 到 64 位 的 值 ， 放 到 
目的 位 置 。movabsq 指令 能 够 以 任意 64 位 立即 数值 作为 源 操作 数 ， 并 且 只 能 以 寄存 器 作 
为 目的 。 

图 3-5 和 图 3-6 记录 的 是 两 类 数据 移动 指令 ， 在 将 较 小 的 源 值 复制 到 较 大 的 目的 时 使 
用 。 所 有 这 些 指令 都 把 数据 从 源 ( 在 寄存 器 或 内 存 中) 复制 到 目的 寄存 器 。MOVZ 类 中 的 
指令 把 目的 中 剩余 的 字 节 填充 为 0， 而 MOVS 类 中 的 指令 通过 符号 扩展 来 填充 ， 把 源 操 作 
的 最 高 位 进行 复制 。 可 以 观察 到 ， 每 条 指令 名 字 的 最 后 两 个 字符 都 是 大 小 指示 符 : 第 一 个 
字符 指定 源 的 大 小 ， 而 第 二 个 指明 目的 的 大 小 。 正 如 看 到 的 那样 ， 这 两 个 类 中 每 个 都 有 三 
条 指令 ， 包 括 了 所 有 的 源 大 小 为 1 个 和 2 个 字 节 、 目 的 大 小 为 2 个 和 4 个 的 情况 ， 当 然 只 
考虑 目的 大 于 源 的 情况 。 





描述 

玉芝 六 展 进行 传送 
movzbw 将 做 了 零 扩 展 的 字 节 传送 到 字 
movzbl 将 做 了 零 扩展 的 字 节 传送 到 双 字 
movzwl 将 做 了 零 扩 展 的 字 传 送 到 双 字 
movzbq 将 做 了 零 扩 展 的 字 节 传送 到 四 字 
movzwq 将 做 了 零 扩展 的 字 传 送 到 四 字 























传送 符号 扩展 的 字 节 
将 做 了 符号 扩展 的 字 节 传送 到 字 
将 做 了 符号 扩展 的 字 节 传送 到 双 字 
将 做 了 符号 扩展 的 字 传 送 到 双 字 














movsbw 





movsbl 





movswl 







movsbq 将 做 了 符号 扩展 的 字 节 传送 到 四 字 
movswq 将 做 了 符号 扩展 的 字 传 送 到 四 字 
movslq 将 做 了 符号 扩展 的 双 字 传送 到 四 字 









cltq srax < 符号 扩展 (seax) 把 seax 符号 扩展 到 %rax 








图 3-6 符号 扩展 数据 传送 指令 。MOVS 指令 以 寄存 器 或 内 存 地 址 作为 源 ， 以 寄存 器 
作为 目的 。clta 指 令 只 作用 于 寄存 器 seax 和 s%rax 








臣 要 理解 数据 传送 如 何 改变 目的 寄存 器 
正如 我 们 描述 的 那样 ， 关 于 数据 传送 指令 是 否 以 及 如 何 修改 目的 寄存 器 的 高 位 字 节 
有 两 种 不 同 的 方法 。 下 面 这 段 代码 序列 会 说 明 其 差别 : 


1 movabsq $0x0011223344556677 ，XTrax %rax = 0011223344556677 
2 movb $-1, %al Yrax = 00112233445566FF 
3 moVW $-1, %ax Yrax = 001122334455FFFF 
4 movl $-1, %eax Yrax = O0000000FFFFFFFF 
5 movq $-1, %rax Yrax = FFFFFFFFFFFFFFFF 


在 接 下 来 的 讨论 中 ， 我 们 使 用 十 六 进 制 表示 。 在 这 个 例子 中 ， 第 1 行 的 指令 把 寄存 器 

rax 初始 化 为 位 模式 0011223344556677。 剩 下 的 指令 的 源 操作 数值 是 立即 数值 一 1。 回 想 一 
1 的 十 六 进 制 表示 形 如 FFE…EF， 这 里 下 的 数量 是 表述 中 字 节 数量 的 两 倍 。 因 此 movb 指令 
(第 2 行 ) 把 sSrax 的 低位 字 节 设置 为 FF， 而 movw 指令 (第 3 行 ) 把 低 2 位 字 节 设置 为 FFFF， 
剩 下 的 字 节 保持 不 变 。movl 指令 (第 4 行 ) 将 低 4 个 字 节 设置 为 FFFFFFFF， 同 时 把 高 位 4 
字 节 设置 为 00000000。 最 后 movq 指令 (第 5 行 ) 把 整个 寄存 器 设置 为 FFEFFFFFFFFFFFFFF。 


注意 图 3-5 中 并 没有 一 条 明确 的 指令 把 4 字 节 源 值 零 扩展 到 8 字 节 目的 。 这 样 的 指令 
逻辑 上 应 该 被 命名 为 movzlq， 但 是 并 没有 这 样 的 指令 。 不 过 ， 这 样 的 数据 传送 可 以 用 以 
寄存 器 为 目的 的 movl 指令 来 实现 。 这 一 技术 利用 的 属性 是 ， 生 成 4 字 节 值 并 以 寄存 器 作 
为 目的 的 指令 会 把 高 4 字 节 置 为 0。 对 于 64 位 的 目标 ， 所 有 三 种 源 类 型 都 有 对 应 的 符号 扩 
展 传送 ， 而 只 有 两 种 较 小 的 源 类 型 有 零 扩 展 传 送 。 

图 3-6 还 给 出 cltq 指令 。 这 条 指令 没有 操作 数 : 它 总 是 以 寄存 器 $eax 作为 源 ,$srax 作 
为 符号 扩展 结果 的 目的 。 它 的 效果 与 指令 movslq %$eax,%rax 完全 一 致 ， 不 过 编码 更 紧凑 。 
用 他 练习 题 3.2 ”对 于 下 面 汇编 代码 的 每 一 行 ， 根 据 操作 数 ， 确 定 适 当 的 指令 后 级 。( 例 

如 ，mov 可 以 被 重 写成 movb、movw、movl 或 者 movq。) 


moV Weax, (%rsp) 

mov  (%rax), %dx 

moVv _ $OxFF, %bl 

mov  (%rsp,%rdx,4), %dl 
moV_ (%Tdx) ，X%TaX 

moV %dx, (%rax) 


| 装 注 字 节 传送 指令 比较 
下 面 这 个 示例 说 明了 不 同 的 数据 传送 指令 如 何 改变 或 者 不 改变 目的 的 高 位 字 节 。 仔 细 观 
察 可 以 发 现 ， 三 个 字 节 传 送 指令 movb、movsbq 和 movzbq 之 间 有 细微 的 差别 。 示 例如 下 : 


1 movabsq $0x0011223344556677,，%rax Yrax = 0011223344556677 
2 movb $OxAA, %dl Yal = 44 

3 movb %d]l ,%al Yrax = 0011223344556644 
4 movsbq %dl,%rax Yrax = FFFFFFFFFFFFFFAA 
5 movzbq %dl,%rax Yrax = 0000000000000044 


在 下 面 的 讨论 中 ， 所 有 的 值 都 使 用 十 六 进 制 表 示 。 代 码 的 头 2 行将 寄存 器 %rax 和 sd1l 
分 别 初始 化 为 0011223344556677 和 RR。 剩 下 的 指令 都 是 将 srqx 的 低位 字 节 复制 到 %rax 
的 低位 字 节 。movb 指令 (第 3 行 ) 不 政变 其 他 字 节 。 根 据 源 字 节 的 最 高 位 ，movsbq 指令 (第 
4 行 ) 将 其 他 7 个 字 节 设 为 全 1 或 全 0。 由 于 十 六 进 制 A 表示 二 进 制 值 1010， 符 号 扩展 会 把 
高 位 字 节 都 设置 为 FE。movzbq 指令 (第 5 行 ) 总 是 将 其 他 7 个 字 节 全 都 设置 为 0。 
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人 练习 题 3. 3 ， 当 我 们 调用 汇编 器 的 时 候 ， 下 面 代码 的 每 一 行 都 会 产生 一 个 错误 消息 。 
解释 每 一 行 都 是 哪里 出 了 错 。 
movb $OxF, (%ebx) 
mov] %rax, (%rsp) 
movw (%rax) ,4(%rsp) 
movb %al,%sl 
movd %rax,$0x123 
movl Weax,%rdx 
movb %si, 8(%rbp) 


3.4.3 数据 传送 示例 


作为 一 个 使 用 数据 传送 指令 的 代码 示例 ， 考 虑 图 3-7 中 所 示 的 数据 交换 函数 ， 既 有 C 
代码 ， 也 有 GCC 产生 的 汇编 代码 。 


long exchange(long *xp, long y) 
{ 


long x = *xp; 


*xp = y; 
return Xi; 





a ) C 语 言 代码 









long exchange(long *xp, long y) 
Xp dn Wiadi, py in Wisi 





1 exchange: 

2 movg (%rdi), %rax Get x at xp. Set as return value. 
3 movg %rsis (%rai) Store y at xp. 

4 ret Return. 





b ) 汇编 代码 
图 3-7 exchange 函数 的 C 语 言 和 汇编 代码 。 寄 存 器 $rdi 和 srsi 分 别 存放 参数 xp 和 y 


如 图 3-7b 所 示 ， 函 数 exchange 由 三 条 指令 实现 : 两 个 数据 传送 (movq)， 加 上 一 条 
返回 函数 被 调用 点 的 指令 (ret)。 我 们 会 在 3. 7 节 中 讲述 函数 调用 和 返回 的 细节 。 在 此 之 
前 ， 知 道 参数 通过 寄存 器 传递 给 函数 就 足够 了 。 我 们 对 汇编 代码 添加 注释 来 加 以 说 明 。 枯 
数 通 过 把 值 存 储 在 寄存 器 srax 或 该 寄存 器 的 某 个 低位 部 分 中 返回 。 

当 过 程 开 始 执行 时 ， 过 程 参数 xp 和 y 分 别 存储 在 寄存 器 $rdi 和 srsi 中 。 然 后 ， 指 
令 2 从 内 存 中 读 出 x， 把 它 存放 到 寄存 器 srax 中 ， 直 接 实现 了 C 程序 中 的 操作 x=*xp。 稍 
后 ， 用 寄存 器 srax 从 这 个 函数 返回 一 个 值 ， 因 而 返回 值 就 是 x。 指 令 3 将 y 写 人 到 寄存 

srdi 中 的 xp 指向 的 内 存 位置 ， 直 接 实现 了 操作 *xp=y。 这 个 例子 说 明了 如 何 用 MOV 
指令 从 内 存 中 读 值 到 寄存 器 (第 2 行 )， 如 何 从 寄存 器 写 到 内 存 ( 第 3 行 ) 。 

关于 这 段 汇 编 代 码 有 两 点 值得 注意 。 首 先 ， 我 们 看 到 C 语言 中 所 谓 的 “指针 ”其 实 就 
是 地 址 。 间 接 引 用 指针 就 是 将 该 指针 放 在 一 个 寄存 器 中 ， 然 后 在 内 存 引 用 中 使 用 这 个 寄存 
器 。 其 次 ， 像 x 这 样 的 局 部 变量 通常 是 保存 在 寄存 器 中 ， 而 不 是 内 存 中 。 访 问 寄存 器 比 访 
问 内 存 要 快 得 多 。 
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六 练习 题 3. 4 假设 变量 sp 和 dp 被 声明 为 类 型 
src_t *sp; 
dest_t *dp; 
这 里 src 七 和 dest 七 是 用 typedefE 声明 的 数据 类 型 。 我 们 想 使 用 适当 的 数据 传送 指 
令 来 实现 下 面 的 操作 
*dp = (dest_t) *sp; 


假设 sp 和 dp 的 值 分 别 存储 在 寄存 器 $rdi 和 srsi 中 。 对 于 表 中 的 每 个 表 项 ， 给 出 
实现 指定 数据 传送 的 两 条 指令 。 其 中 第 一 条 指令 应 该 从 内 存 中 读数 ， 做 适当 的 转换 ， 并 
设置 寄存 器 $rax 的 适当 部 分 。 然 后 ， 第 二 条 指令 要 把 srax 的 适当 部 分 写 到 内 存 。 在 这 
两 种 情况 中 ， 寄 存 咒 的 部 分 可 以 是 Srax、%eax、%ax 或 baal， 两 者 可 以 互 不 相同 。 

记 住 ， 当 执行 强制 类 型 转换 既 涉 及 大 小 变化 又 涉及 CC 语言 中 符号 变化 时 ， 操 作 应 
该 先 改 变 大 小 (2.2.6 节 )。 












long movq (Srdi),s%rax 
movq Srax, (S$rsi) 

char 

char unsigned 





unsigned char long 


生 责 起 char 


unsigned unsigned char 







char short 





EE 明 @ 坟 ;者 = 二 J 攻 洛 洗 ”指针 的 一 些 示例 
函数 exchange( 图 3-7a) 提 供 了 一 个 关于 C 语 言 中 指针 使 用 的 很 好 说 明 。 参 数 xp 是 
一 个 指向 long 类 型 的 整数 的 指针 ， 而 y 是 一 个 long 类 型 的 整数 。 语 和 句 
long X = *xp; 
表示 我 们 将 读 存储 在 xp 所 指 位 置 中 的 值 ， 并 将 它 存放 到 名 字 为 x 的 局 部 变量 中 。 这 个 
读 操 作 称 为 指针 的 间接 引用 (pointer dereferencing)，C 操作 符 * 执行 指针 的 间接 引用 。 
语句 
*xp = y; 
正好 相反 一 一 它 将 参数 y 的 值 写 到 xp 所 指 的 位 置 。 这 也 是 指针 间接 引用 的 一 种 形式 (所 
以 有 操作 符 * )， 但 是 它 表明 的 是 一 个 写 操 作 ， 因 为 它 在 赋值 语句 的 左边 。 
下 面 是 调用 exchange 的 一 个 实际 例子 : 


long a = 4; 
long b = exchange(&a, 3); 
printf("a = %ld, b = %ld\n", a, b); 
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这 段 代码 会 打印 出 : 

a=3,b=4 

C 操 作 符 &( 称 为 “ 取 址 ”操作 符 ) 创 建 一 个 指针 ， 在 本 例 中 ， 该 指针 指向 保存 局 部 变 
量 a 的 位 置 。 然 后 ， 子 数 exchange 将 用 3 履 盖 存储 在 a 中 的 值 ， 但 是 返回 原来 的 值 4 作 
为 函数 的 值 。 注 意 如 何 将 指针 传递 给 exchange， 它 能 修改 存在 某 个 远 处 位 置 的 数据 。 


ES 练习 题 3.5 已 知 信息 如 下 。 将 一 个 原型 为 
void decodeli(long *xp, long *yp, long *zp); 
的 函数 编译 成 汇编 代码 ， 得 到 如 下 代码 : 


void decodel(long *xp, long *yp, long *ZP) 
wp i Wiadi, Wan Va, sp la Yrdx 


decodel: 
movdq (%rdi), %r8 
movd (Xrsi), %rcx 


movdq (%rdx) , %rax 
movd %r8, (%rsi) 
movd %rcx，(Xrdx) 
movq %rax, (%rdi) 
ret 
参数 xp、yp 和 zp 分别 存储 在 对 应 的 寄存 器 srdi、%rsi 和 s%rdx 中 。 
请 写 出 等 效 于 上 面 汇 编 代 码 的 decodel 的 C 代码。 


3.4.4 压 入 和 弹出 栈 数据 


最 后 两 个 数据 传送 操作 可 以 将 数据 压 人 程序 栈 中 ， 以 及 从 程序 栈 中 弹出 数据 ， 如 图 3-8 
所 示 。 正 如 我 们 将 看 到 的 ， 栈 在 处 理 过 程 调用 中 起 到 至 关 重 要 的 作用 。 栈 是 一 种 数据 结 
构 ， 可 以 添加 或 者 删除 值 ， 不 过 要 遵循 “后 进 先 出 ”的 原则 。 通 过 push 操作 把 数据 压 人 
栈 中 ， 通 过 pop 操作 删除 数据 ; 它 具 有 一 个 属性 : 弹出 的 值 永 远 是 最 近 被 压 人 而 且 仍 然 在 
栈 中 的 值 。 栈 可 以 实现 为 一 个 数组 ， 总 是 从 数组 的 一 端 插入 和 删除 元 素 。 这 一 端 被 称 为 栈 
项。 在 x86-64 中 ， 程 序 栈 存放 在 内 存 中 某 个 区 域 。 如 图 3-9 所 示 ， 栈 向 下 增长 ， 这 样 一 
来 ， 栈 顶 元 素 的 地 址 是 所 有 栈 中 元 素 地 址 中 最 低 的 。( 根 据 惯 例 ， 我 们 的 栈 是 倒 过 来 画 的 ， 
栈 “ 顶 ” 在 图 的 底部 。) 栈 指针 gsrsp 保存 着 栈 顶 元 素 的 地 址 。 


RLsrsp]<RLsrsp] 一 8; 
M[LR[Lsrsp]]<-S 


将 四 字 压 人 栈 


De MLR[srsp]]; 


RLsrsp]<-R[srsp] 十 8 将 四 字 弹 出 栈 





图 3-8 人 栈 和 出 栈 指令 


pushq 指令 的 功能 是 把 数据 压 人 到 栈 上 ， 而 popq 指令 是 弹出 数据 。 这 些 指令 都 只 有 
一 个 操作 数 一 一 压 人 的 数据 源 和 弹出 的 数据 目的 。 

将 一 个 四 字 值 压 人 栈 中 ， 首 先 要 将 栈 指 针 减 8， 然 后 将 值 写 到 新 的 栈 顶 地 址 。 因 此 ， 
指令 pushq %rbp 的 行为 等 价 于 下 面 两 条 指令 : 
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subq $8,%rsp Decrement stack pointer 
movg %rbp, (Xrsp) Store Yrbp on stack 
它们 之 间 的 区 别 是 在 机 器 代码 中 pushq 指令 编码 为 1 个 字 节 ， 而 上 面 那 两 条 指令 一 共 需 要 
8 个 字 节 。 图 3-9 中 前 两 栏 给 出 的 是 ， 当 %rsp 为 0x108,%rax 为 0x123 时 ， 执 行 指 令 
pushq %rax 的 效果 。 首 先 %rsp 会 减 8， 得 到 0x100， 然 后 会 将 0x123 存放 到 内 存 地 址 
0x100 处 。 
最 初 pushq %rax popq %rdx 


ww | 9 


一 
底 





0x108 0x108 0x108 
0x100 0x123 
栈 “ 顶 ” 


图 3-9 栈 操作 说 明 。 根 据 惯例 ， 我 们 的 栈 是 倒 过 来 画 的 ， 因 而 栈 “ 顶 ”在 底部 。x86-64 中 ， 
栈 向 低地 址 方向 增长 ， he eal 并 将 数据 存放 到 
内 存 中 ， 而 出 栈 是 从 内 在 中 读数 据 ， 并 增加 栈 指针 的 值 


弹出 一 个 四 字 的 操作 包括 从 栈 项 位 置 读 出 数据 ， 然 后 将 栈 指针 加 8。 因 此 ， 指 令 popq 
szrax 等 价 于 下 面 两 条 指令 : 

moVvq (%rsp),%rax Read Yrax from stack 

addq $8,%rsp Increment stack pointer 

图 3-9 的 第 三 栏 说 明 的 是 在 执行 完 pushg 后 立即 执行 指令 popq srdx 的 效果 。 先 从 内 
存 中 读 出 值 0x123， 再 写 到 寄存 器 srdx 中 ， 然 后 ， 寄 存 器 $rsp 的 值 将 增加 回 到 0x108。 
如 图 中 所 示 ， 值 0x123 仍然 会 保持 在 内 存 位 置 0x100 中 ， 直 到 被 覆盖 (例如 被 另 一 条 人 栈 
操作 覆盖 ) 。 无 论 如 何 , %%rsp 指向 的 地 址 总 是 栈 顶 。 

因为 栈 和 程序 代码 以 及 其 他 形式 的 程序 数据 都 是 放 在 同一 内 存 中 ， 所 以 程序 可 以 用 标 
准 的 内 存 寻 址 方法 访问 栈 内 的 任意 位 置 。 例 如 ， 假 设 栈 顶 元 素 是 四 字 ， 指 令 movq 8 (% 
rsp),%rdx 会 将 第 二 个 四 字 从 栈 中 复制 到 寄存 器 srdx。 


3.5 算术 和 逻辑 操作 

图 3-10 列 出 了 x86-64 的 一 些 整数 和 逻辑 操作 。 大 多 数 操作 都 分 成 了 指令 类 ， 这 些 指 
令 类 有 各 种 带 不 同 大 小 操作 数 的 变种 (只 有 leag 没有 其 他 大 小 的 变种 )。 例 如 ， 指 令 类 
ADD 由 四 条 加 法 指令 组 成 : addb、addw、addl 和 addg， 分 别 是 字 节 加 法 、 字 加 法 、 双 
字 加 法 和 四 字 加 法 。 事 实 上， 给 出 的 每 个 指令 类 都 有 对 这 四 种 不 同 大 小 数据 的 指令 。 这 些 
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操作 被 分 为 四 组 : 加 载 有 效 地 址 、 一 元 操作 、 二 元 操作 和 移 位 。 二 元 操作 有 两 个 操作 数 ， 
而 一 元 操作 有 一 个 操作 数 。 这 些 操作 数 的 描述 方法 与 3. 4 节 中 所 讲 的 一 样 。 


左 移 ( 等 同 于 SAL ) 
算术 右 移 
逻辑 右 移 








图 3-10 整数 算术 操作 。 加 载 有 效 地 址 (leaq) 指 令 通 常用 来 执行 简单 的 算术 操作 。 其 余 的 指令 
是 更 加 标准 的 一 元 或 二 元 操作 。 我 们 用 >> 。 和 >> :来 分 别 表示 算术 右 移 和 逻辑 右 移 。 
注意 ， 这 里 的 操作 顺序 与 ATT 格式 的 汇编 代码 中 的 相反 


3.5. 1 ”加载 有 效 地 址 


加 载 有 效 地 址 (load effective address) 指 令 leag 实际 上 是 movq 指令 的 变形 。 它 的 指 
令 形 式 是 从 内 存 读 数据 到 寄存 器 ， 但 实际 上 它 根 本 就 没有 引用 内 存 。 它 的 第 一 个 操作 数 看 
上 去 是 一 个 内 存 引 用 ， 但 该 指令 并 不 是 从 指定 的 位 置 读 人 数据 ， 而 是 将 有 效 地 址 写 人 到 目 
的 操作 数 。 在 图 3-10 中 我 们 用 C 语言 的 地 址 操作 符 &s 说 明 这 种 计算 。 这 条 指令 可 以 为 后 
面 的 内 存 引 用 产生 指针 。 另 外 ， 它 还 可 以 简洁 地 描述 普通 的 算术 操作 。 例 如 ， 如 果 寄 存 
器 $rdx 的 值 为 x， 那么 指令 leaq 7 (%rdx,%rdx, 4),%rax 将 设置 寄存 器 srax 的 值 为 5x 十 
7。 编译 器 经 常 发 现 leaq 的 一 些 灵活 用 法 ， 根 本 就 与 有 效 地 址 计算 无 关 。 目 的 操作 数 必须 
是 一 个 寄存 器 。 

为 了 说 明 leaq 在 编译 出 的 代码 中 的 使 用 ， 看 看 下 面 这 个 C 程序 : 


long scale(long x, long y, long z) { 
long t =x+4*y+12*2z,; 
return 七 ; 


编译 时 ， 该 函数 的 算术 运算 以 三 条 leaq 指令 实现 ， 就 像 右边 注释 说 明 的 那样 : 


long scale(long x, long y, long 2) 
x 1 Xrdi, ¥ in Yrei, ZB in Xradxr 


scale: 
leaq (%rdi,%rsi,4), %rax x + 4A#y 
leaq (%rdx,%rdx,2), %rdx 2 # Ds Es Bz 
leaq (Xrax,%rdx,4), %rax (X+4#Jr) + 4¥(342) = xX + dx¥y + 了 2#Z 


ret 
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leaq 指 令 能 执行 加 法 和 有 限 形式 的 乘法 ， 在 编译 如 上 简单 的 算术 表达 式 时 ， 是 很 有 用 处 的 。 
匠 忌 练习 题 3. 6 假设 寄存 器 srax 的 值 为 x,%rcx 的 值 为 y。 填 写 下 表 ， 指 明 下 面 每 条 汇 
编 代 码 指 令 存储 在 寄存 器 $rdx 中 的 值 : 


表达 式 结果 


leaq 6(%ax), Srdx 
leaq (Srax,%rcx),%rdx 
leaq (%rax,%Srcx,4),%rdx | 


leaq 7{(%rax,%Srax,8),%Srdx 


















leaq OxA(, Srcx,4),%rdx 


a en | | 
人 练习 题 3. 7 考虑 下 面 的 代码 ， 我 们 省 略 了 被 计算 的 表达 式 : 


long scale2(long x, long y, long z) { 
long t= i 
return t; 








ee 


} 
用 GCC 编译 实际 的 函数 得 到 如 下 的 汇编 代码 : 


long scale2(long x, long y, 1long 2z) 
i NE 7 Aral, 2 1 Widx 


scale2: 
leaq (%rdi,%rdi,4), %rax 
leaq (%rax,%rsi,2), %rax 
leaq (Xrax,%rdx,8), %rax 
ret 


填写 出 C 代码 中 缺失 的 表达 式 。 
5 区 和 三 元 操作 

第 二 组 中 的 操作 是 一 元 操作 ， 只 有 一 个 操作 数 ， 既 是 源 又 是 目的 。 这 个 操作 数 可 以 是 
一 个 寄存 器 ， 也 可 以 是 一 个 内 存 位 置 。 比 如 说 ， 指 令 incq(srsp) 会 使 栈 顶 的 8 字 节 元 素 
加 1。 这 种 语法 让 人 想起 C 语言 中 的 加 1 运算 符 ( 十 十 ) 和 减 1 运算 符 ( 一 一 ) 。 

第 三 组 是 二 元 操作 ， 其 中 ， 第 二 个 操作 数 既 是 源 又 是 目的 。 这 种 语法 让 人 想起 C 语言 
中 的 赋值 运算 符 ， 例如 Xs 不 过 ， 要 注意 ， 源 操作 数 是 第 一 "ys 目的 操作 数 是 第 二 个 六， 
对 于 不 可 交换 操作 来 说 ， 这 看 上 去 很 奇特 。 例 如 ， 指 令 subq S$rax, srdx 使 寄存 器 $rdx 的 
值 减 去 srax 中 的 值 。( 将 指令 解读 成 “从 srqx 中 减 去 srax” 会 有 所 帮助 。) 第 一 个 操作 数 
可 以 是 立即 数 、 寄 存 器 或 是 内 存 位 置 。 第 二 个 操作 数 可 以 是 寄存 器 或 是 内 存 位置 。 注 意 ， 
当 第 二 个 操作 数 为 内 存 地 址 时 ， 处 理 器 必须 从 内 存 读 出 值 ， 执 行 操作 ， 再 把 结果 写 回 
内 存 。 
gs 练习 题 3.8 假设 下 面 的 值 存放 在 指定 的 内 存 地址 和 寄存 器 中 : 








碘 
入 
莫 
应 





0x100 
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填写 下 表 ， 给 出 下 面 指令 的 效果 ， 说 明 将 被 更 新 的 寄存 器 或 内 存 位 置 ， 以 及 得 到 
的 值 













addq %rcx, (Srax) 





Subq %rdx,8(%rax) 






imulq $16, (S$rax, Srdx, 8) 













incq 16 (S$rax) 





decq %rcx 















subq %rdx, %rax 





3.5.3 移 位 操作 


最 后 一 组 是 移 位 操作 ， 先 给 出 移 位 量 ， 然 后 第 二 项 给 出 的 是 要 移 位 的 数 。 可 以 进行 算 
术 和 逻辑 右 移 。 移 位 量 可 以 是 一 个 立即 数 ， 或 者 放 在 单字 节 寄 存 器 scl 中 。( 这 些 指令 很 
特别 ， 因 为 只 允许 以 这 个 特定 的 寄存 器 作为 操作 数 。) 原 则 上 来 说 ，1 个 字 节 的 移 位 量 使 得 
移 位 量 的 编码 范围 可 以 达到 2 一 1 二 255。x86-64 中 ， 移 位 操作 对 也 位 长 的 数据 值 进 行 操 
作 ， 移 位 量 是 由 scl 寄存 器 的 低 m 位 决定 的 ， 这 里 2" 二 w。 高 位 会 被 忽略 。 所 以 ,例如 当 
寄存 器 scl 的 十 六 进 制 值 为 0xFF 时 ， 指 令 salb 会 移 7 位 ，salw 会 移 15 位 ，sall 会 移 
31 位 ， 而 salq 会 移 63 位。 

如 图 3-10 所 示 ， 左 移 指令 有 两 个 名 字 : SAL 和 SHL。 两 者 的 效果 是 一 样 的 ， 都 是 将 
右边 填 上 0。 右 移 指令 不 同 ，SAR 执行 算术 移 位 ( 填 上 符号 位 )， 而 SHR 执行 逻辑 移 位 ( 填 
上 0)。 移 位 操作 的 目的 操作 数 可 以 是 一 个 寄存 器 或 是 一 个 内 存 位 置 。 图 3-10 中 用 >>,( 算 
术 ) 和 >>:( 逻 辑 ) 来 表示 这 两 种 不 同 的 右 移 运算 。 

放 S 练习 题 3. 9 假设 我 们 想 生成 以 下 C 函数 的 汇编 代码 

long shift_left4_rightn(long x, long n) 

X <<= 4; 

x >>= 1; 
return Xx; 


下 面 这 段 汇编 代码 执行 实际 的 移 位 ， 并 将 最 后 的 结果 放 在 寄存 器 %rax 中 。 此 处 
省 略 了 两 条 关键 的 指令 。 参 数 x 和 n 分别 存放 在 寄存 器 $rdi 和 %rsi 中 。 


long shift_left4_rightn(long x, long n) 
1 rd DL 3 Wa 
shift._left4_rightn: 








movq %rdi, Wrax Get x 
oi X <<= 4 
movl Wesi, %ecx Get n (4 bytes) 
X >>= 1 
根据 右边 的 注释 ， 填 出 缺失 的 指令 。 请 使 用 算术 右 移 操 作 。 
354 讨论 


我 们 看 到 图 3-10 所 示 的 大 多 数 指令 ， 既 可 以 用 于 无 符号 运算 ， 也 可 以 用 于 补 码 运算 。 
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只 有 右 移 操作 要 求 区 分 有 符号 和 无 符号 数 。 这 个 特性 使 得 补 码 运算 成 为 实现 有 符号 整数 运 
算 的 一 种 比较 好 的 方法 的 原因 之 一 。 

图 3-11 给 出 了 一 个 执行 算术 操作 的 函数 示例 ， 以 及 它 的 汇编 代码 。 参 数 x、y 和 z 初 
始 时 分 别 存放 在 内 存 srdi\srsi 和 srdx 中 。 汇 编 代码 指令 和 C 源 代码 行 对 应 很 紧密 。 第 2 
行 计 算 x^y 的 值 。 指 令 3 和 4 用 1eaq 和 移 位 指令 的 组 合 来 实现 表达 式 z* 48。 第 5 行 计 
算 t1 和 0x0FOFOFOF 的 AND 值 。 第 6 行 计算 最 后 的 减法 。 由 于 减法 的 目的 寄存 器 是 
zax， 图 数 会 返回 这 个 值 。 






long arith(long x, long y, long 2z) 
长 








long tl =x* yi 

long t2 = Z * 48; 

long t3 = tl & OxOFOFOFOF; 
long t4 = t2 - t3; 

return t4; 









a ) C 语 言 代 码 


long arith(long x, long y, long ZI) 
0 
arith: 

xorq %rsi, %rdi 


leaqg (Xrdx,%rdx,2), %rax 

salqg $4, hrax 16 * (3*2) = 48*Z 
andl $252645135，,，%edi tl & OxOFOFOFOF 
subq %rdi, rax Return t2 - t3 

ret 





b ) 汇编 代码 
图 3-11 算术 运算 函数 的 C 语言 和 汇编 代码 
在 图 3-11 的 汇编 代码 中 ， 寄 存 器 srax 中 的 值 先后 对 应 于 程序 值 3*z、z* 48 和 t4( 作 
为 返回 值 ) 。 通 常 ， 编 译 器 产生 的 代码 中 ， 会 用 一 个 寄存 器 存放 多 个 程序 值 ， 还 会 在 寄存 
器 之 间 传 送 程序 值 。 


X 练习 题 3. 10 下 面 的 函数 是 图 3-11a 中 函数 一 个 变种 ， 其 中 有 些 表达 式 用 空格 蔡 代 : 
long arith2(long x, long y, long z) 





long tl = FE 
LOnE: 2 3 
LT60nE CO = a 
Lon CA 3S 
return t4; 

} 


实现 这 些 表达 式 的 汇编 代码 如 下 : 
long arith2(Iong xX, long 了 Iong 2) 
基业 本 dn Ns, 2 dn Ws 
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arith2: 
ord Xrsi, %rdi 
Sarq $3, %rdi 
notq %rdi 


movdq XIEdXx ，X%Trax 
subq %rdi, Wrax 
ret 


基于 这 些 汇 编 代码 ， 填 写 C 语言 代码 中 缺失 的 部 分 。 
和 练习 题 3. 11 常常 可 以 看 见 以 下 形式 的 汇编 代码 行 ; 
XOTQ hrdx,%rdx 


但 是 在 产生 这 段 汇编 代码 的 C 代码 中 ， 并 没有 出 现 EXCLUSIVE-OR 操作 。 
A. 解释 这 条 特殊 的 EXCLUSIVE-OR 指令 的 效果 ， 它 实现 了 什么 有 用 的 操作 。 
B. 更 直接 地 表达 这 个 操作 的 汇编 代码 是 什么 ? 

C. 比较 同样 一 个 操作 的 两 种 不 同 实现 的 编码 字 节 长 度 。 


3.5.5 特殊 的 算术 操作 


正如 我 们 在 2. 3 节 中 看 到 的 ， 两 个 64 位 有 符号 或 无 符号 整数 相 乘 得 到 的 乘积 需要 128 
位 来 表示 。x86-64 指令 集 对 128 位 (16 字 节 ) 数 的 操作 提供 有 限 的 支持 。 延 续 字 (2 字 节 )、 
双 字 (4 字 节 ) 和 四 字 (8 字 节 ) 的 命名 惯例 ，Intel 把 16 字 节 的 数 称 为 入 字 (oct word) 。 图 3-12 
描述 的 是 支持 产生 两 个 64 位 数字 的 全 128 位 乘积 以 及 整数 除法 的 指令 。 













有 符号 全 乘法 
无 符号 全 乘法 


转换 为 八字 






RLsrdx]:，R[Lsrax]<SXRLsrax] 
RLsrdx]:， R[srax]<SXRLsrax] 

: R[srax]<- 符 号 扩展 (R[srax]) 
R[Lsrdx]<-RLsrdx]:，RLsrax] mod S 
R[Lsrdx]<-RLsrdx]，R[srax] 二 S 

















R[L%rdxj<-R[Srdx]: R[%rax] mod S 
R[%rdx]<-R[ srdxj: RLsrax] 二 S 














图 3-12 ”特殊 的 算术 操作 。 这 些 操 作 提 供 了 有 符号 和 无 符号 数 的 全 128 位 乘法 和 除法 。 
一 对 寄存 器 $rdx 和 s%rax 组 成 一 个 128 位 的 八字 


imulq 指令 有 两 种 不 同 的 形式 。 其 中 一 种 ， 如 图 3-10 所 示 ， 是 IMUL 指令 类 中 的 一 
种 。 这 种 形式 的 imulq 指令 是 一 个 “ 双 操 作 数 ”乘法 指令 。 它 从 两 个 64 位 操作 数 产生 一 
个 64 位 乘积 ， 实 现 了 2.3.4 和 2.3.5 节 中 描述 的 操作 * 总 和 =*& 。( 回 想 一 下 ， 当 将 乘积 截 
取 到 64 位 时 ， 无 符号 乘 和 补 码 乘 的 位 级 行为 是 一 样 的 。) 

此 外 ，x86-64 指令 集 还 提供 了 两 条 不 同 的 “ 单 操作 数 ” 乘 法 指令 ， 以 计算 两 个 64 位 
值 的 全 128 位 乘积 一 个 是 无 符号 数 乘法 (mulq)， 而 另 一 个 是 补 码 乘 法 (imulg)。 这 两 
条 指令 都 要 求 一 个 参数 必须 在 寄存 器 srax 中 ， 而 另 一 个 作为 指令 的 源 操作 数 给 出 。 然 后 
乘积 存放 在 寄存 器 srqx( 高 64 位 ) 和 srax( 低 64 位 ) 中 。 虽 然 imulq 这 个 名 字 可 以 用 于 两 
个 不 同 的 乘法 操作 ， 但 是 汇编 器 能 够 通过 计算 操作 数 的 数目 ， 分 辨 出 想 用 哪 条 指令 。 

下 面 这 段 C 代码 是 一 个 示例 ， 说 明了 如 何 从 两 个 无 符号 64 位 数字 x 和 y 生成 128 位 
的 乘积 : 
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#include <inttypes .h> 
typedef unsigned __int128 uint128_t; 


void store_uprod(uint128_t *dest, uint64_t x, uint64_t y) { 
*dest = x * (uint128_t) y; 

} 

在 这 个 程序 中 ,我们 显 式 地 把 x 和 y 声明 为 64 位 的 数字 ， 使 用 文件 inttypes. h 中 
声明 的 定义 ， 这 是 对 标准 C 扩展 的 一 部 分 。 不 幸 的 是 ， 这 个 标准 没有 提供 128 位 的 值 。 所 
以 我 们 只 好 依赖 GCC 提供 的 128 位 整数 支持 ， 用 名 字 int128 来 声明 。 代 码 用 typedef 

声明 定义 了 一 个 数据 类 型 uint128 t， 沿 用 的 inttypes.h 中 其 他 数据 类 型 的 命名 规律 。 
这 段 代码 指明 得 到 的 乘积 应 该 存放 在 指针 dest 指向 的 16 字 节 处 。 
GCC 生成 的 汇编 代码 如 下 : 


void store_uprod(uint128_t *dest, uint64_t x, uint64_t y) 
dast 1 hrdi; x ln rol, y in %rax 
store_uprod: 


1 

2 movg Xrsi, %rax Copy x to multiplicand 

3 mulq Xrdx Multiply by 了 

4 movq %rax, (%rdi) Store lower 8 bytes at dest 

5 movq %rdx, 8(%rdi) Store upper 8 bytes at dest+8 
6 ret 


可 以 观察 到 ， 存 储 乘积 需要 两 个 mova 指令 : 一 个 存储 低 8 个 字 节 (第 4 行 )， 一 个 存 
储 高 8 个 字 节 (第 5 行 )。 由 于 生成 这 段 代 码 针 对 的 是 小 端 法 机 器 ， 所 以 高 位 字 节 存储 在 大 
地 址 ， 正 如 地 址 8(srdi) 表 明 的 那样 。 

前 面 的 算术 运算 表 ( 图 3-10) 没 有 列 出 除法 或 取 模 操作 。 这 些 操 作 是 由 单 操作 数 除法 指 
令 来 提供 的 ， 类 似 于 单 操作 数 乘法 指令 。 有 符号 除法 指令 idivl 将 寄存 器 srdx( 高 64 位 ) 
和 srax( 低 64 位 ) 中 的 128 位 数 作为 被 除数 ， 而 除数 作为 指令 的 操作 数 给 出 。 指 令 将 商 存 
储 在 寄存 器 srax 中 ， 将 余数 存储 在 寄存 器 srdx 中 。 

对 于 大 多 数 64 位 除法 应 用 来 说 ， 除 数 也 常常 是 一 个 64 位 的 值 。 这 个 值 应 该 存放 在 % 

rax 中 ,%rdx 的 位 应 该 设置 为 全 0( 无 符号 运算 ) 或 者 $rax ee 后 面 这 
个 操作 可 以 用 指令 cqto。 来 完成 。 这 条 指令 不 需要 操作 数 一 一 它 隐 含 读 出 $rax 的 符号 位 ， 
并 将 它 复制 到 %rdx 的 所 有 位 。 

我 们 用 下 面 这 个 C 函数 来 说 明 x86-64 如 何 实现 除法 ， 它 计算 了 两 个 64 位 有 符号 数 的 

商 和 余数 ， 


void remdiv(long x, long y， 
long *qp, long *rp) { 


long q = x/y; 
long r = x%y; 
*qp = qi; 
*rp = 工 ; 
} 
该 函数 编译 得 到 如 下 汇编 代码 : 


日 ”在 Intel 的 文档 中 ， 这 条 指令 叫做 cqo， 这 是 指令 的 ATT 格式 名 字 和 Intel 名 字 无 关 的 少数 情况 之 一 。 
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void remdiv(long x, long y, long *qgp, long *rp) 
x La Wradi, 7 1 Veils Wh i Ndr Tp i Ne 


1 remdiyv: 

2 movg %rdx, %r8 Copy gp 

3 movqd %rdi, %rax Move x to lower 8 bytes of dividend 

4 cqto Sign-extend to upper 8 bytes of dividend 
5 idivq  %rsi Divide by 了 

6 movq %rax, (%r8) Store quotient at gp 

7 movd Wrdx, (%rcx) Store remainder at rp 

8 ret 


在 上 述 代码 中 ， 必 须 首 先 把 参数 qp 保存 到 另 一 个 寄存 器 中 (第 2 行 )， 因 为 除法 操作 
要 使 用 参数 寄存 器 srdqx。 接 下 来 ， 第 3~4 行 准备 被 除数 ， 复 制 并 符号 扩展 x。 除 法 之 后 ， 
寄存 器 srax 中 的 商 被 保存 在 qp( 第 6 行 )， 而 寄存 器 srdx 中 的 余数 被 保存 在 rp( 第 7 行 )。 
无 符号 除法 使 用 divqa 指令 。 通 常 ， 寄 存 器 srdx 会 事先 设置 为 0。 
训练 习题 3. 12 ”考虑 如 下 函数 ， 它 计算 两 个 无 符号 64 位 数 的 商 和 余数 : 
void uremdiv(unsigned long x, unsigned long y， 
unsigned long *qp, unsigned long *rp) { 
unsigned long q = x/y; 
unsigned long r = x%y; 


*qp = q; 
*rp = 工 ; 
} 
修改 有 符号 除法 的 汇编 代码 来 实现 这 个 函数 。 
3.6 控制 


到 目前 为 止 ， 我 们 只 考虑 了 直线 代码 的 行为 ， 也 就 是 指令 一 条 接着 一 条 顺序 地 执行 。 
C 语言 中 的 某 些 结构 ， 比 如 条 件 语句 、 循 环 语句 和 分 支 语句 ， 要 求 有 条 件 的 执行 ， 根 据 数 
据 测试 的 结果 来 决定 操作 执行 的 顺序 。 机 器 代码 提供 两 种 基本 的 低级 机 制 来 实现 有 条 件 的 
行为 : 测试 数据 值 ， 然 后 根据 测试 的 结果 来 改变 控制 流 或 者 数据 流 。 

与 数据 相关 的 控制 流 是 实现 有 条 件 行为 的 更 一 般 和 更 常见 的 方法 ， 所 以 我 们 先 来 介绍 
它 。 通常,，C 语言 中 的 语句 和 机 器 代码 中 的 指令 都 是 按照 它们 在 程序 中 出 现 的 次 序 ， 顺 序 
执行 的 。 用 jump 指令 可 以 改变 一 组 机 器 代码 指令 的 执行 顺序 ，jump 指令 指定 控制 应 该 被 
传递 到 程序 的 某 个 其 他 部 分 ， 可 能 是 依赖 于 某 个 测试 的 结果 。 编 译 器 必须 产生 构建 在 这 种 
低级 机 制 基 础 之 上 的 指令 序列 ， 来 实现 C 语言 的 控制 结构 。 

本 文 会 先 涉及 实现 条 件 操作 的 两 种 方式 ， 然 后 描述 表达 循环 和 switch 语句 的 方法 。 


3.6.1 条 件 码 


除了 整数 寄存 器 ，CPU 还 维护 着 一 组 单个 位 的 条 件 码 (condition code) 寄 存 器 ， 它 们 
描述 了 最 近 的 算术 或 逻辑 操作 的 属性 。 可 以 检测 这 些 寄存 器 来 执行 条 件 分 支 指令 。 最 常用 
的 条 件 码 有 : 

CF: 进位 标志 。 最 近 的 操作 使 最 高 位 产生 了 进位 。 可 用 来 检查 无 符号 操作 的 溢出 。 

2F: 零 标志 。 最 近 的 操作 得 出 的 结果 为 0。 

SF: 符号 标志 。 最 近 的 操作 得 到 的 结果 为 负数 。 

OF: 溢出 标志 。 最 近 的 操作 导致 一 个 补 码 溢出 一 一 正 溢出 或 负 溢出 。 
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比如 说 ， 假 设 我 们 用 一 条 ADD 指令 完成 等 价 于 C 表达 式 t=a+ b 的 功能 ， 这 里 变量 
a、b 和 七 都 是 整 型 的 。 然后， 根据 下 面 的 C 表达 式 来 设置 条 件 码 : 


CF (unsigned) t < (unsigned) a 无 符号 溢出 
ZF (E ==0) 至 

SF (t<0) 负数 

OF (ax0==b<0) && (t<0 ! =a<0) 有 符号 溢出 


leaq 指令 不 改变 任何 条 件 码 ， 因 为 它 是 用 来 进行 地 址 计算 的 。 除 此 之 外 ， 图 3-10 中 
列 出 的 所 有 指令 都 会 设置 条 件 码 。 对 于 逻辑 操作 ， 例 如 XOR， 进 位 标志 和 溢出 标志 会 设 
置 成 0。 对 于 移 位 操作 ， 进 位 标志 将 设置 为 最 后 一 个 被 移出 的 位 ， 而 溢出 标志 设置 为 0。 
INC 和 DEC 指令 会 设置 溢出 和 零 标 志 ， 但 是 不 会 改变 进位 标志 ， 至 于 原因 ， 我 们 就 不 在 
这 里 深入 探讨 了 。 

除了 图 3-10 中 的 指令 会 设置 条 件 
码 ， 还 有 两 类 指令 (有 8、16、32 和 64 
位 形式 )， 它 们 只 设置 条 件 码 而 不 改变 任 
何其 他 寄存 器 ; 如 图 3-13 所 示 。CMP 指 





描述 
比较 
比较 字 节 
比较 字 





















令 根据 两 个 操作 数 之 差 来 设置 条 件 码 。 cmpl 比较 双 字 
除了 只 设置 条 件 码 而 不 更 新 目的 寄存 器 enpa 比较 四 字 
之 外 ，CMP 指令 与 SUB 指令 的 行为 是 

一 样 的 。 在 ATT 格式 中 ， 列 出 操作 数 的 。| TEST S'S | S65 | 测试 
顺序 是 相反 的 ， 这 使 代码 有 点 难 读 。 如 a 本 
果 两 个 操作 数 相等 ， 这 些 指令 会 将 零 标 Sm ee 
志 设置 为 1， 而 其 他 的 标志 可 以 用 来 确定 eed 














两 个 操作 数 之 间 的 大 小 关系 。TEST 指 
令 的 行为 与 AND 指令 一 样 ， 除 了 它们 只 图 3-13 ”比较 和 测试 指令 。 这 些 指令 不 修改 任何 
设置 条 件 码 而 不 改变 目的 寄存 器 的 值 。 Wn 
典型 的 用 法 是 ， 两 个 操作 数 是 一 样 的 (例如 ，testq srax,srax 用 来 检查 srax 是 负数 、 
零 ， 还 是 正 数 ) ， 或 其 中 的 一 个 操作 数 是 一 个 掩 码 ， 用 来 指示 哪些 位 应 该 被 测试 。 


3.6.2 访问 条 件 码 


条 件 码 通 常 不 会 直接 读 取 ， 常 用 的 使 用 方法 有 三 种 : 1) 可 以 根据 条 件 码 的 某 种 组 合 ， 
将 一 个 字 节 设置 为 0 或 者 1，2) 可 以 条 件 跳 转 到 程序 的 某 个 其 他 的 部 分 ，3) 可 以 有 条 件 地 
传送 数据 。 对 于 第 一 种 情况 ， 图 3-14 中 描述 的 指令 根据 条 件 码 的 某 种 组 合 ， 将 一 个 字 节 
设置 为 0 或 者 1。 我 们 将 这 一 整 类 指令 称 为 SET 指令 ; 它们 之 间 的 区 别 就 在 于 它们 考虑 的 
条 件 码 的 组 合 是 什么 ， 这 些 指令 名 字 的 不 同 后 级 指明 了 它们 所 考虑 的 条 件 码 的 组 合 。 这 些 
指令 的 后 缀 表示 不 同 的 条 件 而 不 是 操作 数 大 小 ， 了 解 这 一 点 很 重要 。 例 如 ， 指 令 setl 和 
setb 表示 “小 于 时 设置 (set less)” 和 “ 低 于 时 设置 (set below)”， 而 不 是 “设置 长 字 (set 
long word)” 和 “设置 字 节 (set byte)”。 

一 条 SET 指令 的 目的 操作 数 是 低位 单字 节 寄 存 器 元 素 ( 图 3-2) 之 一 ， 或 是 一 个 字 节 的 
内 存 位 置 ， 指 令 会 将 这 个 字 节 设置 成 0 或 者 1。 为 了 得 到 一 个 32 位 或 64 位 结果 ， 我 们 必 
须 对 高 位 清 零 。 一 个 计算 C 语言 表 达 式 a < b 的 典型 指令 序列 如 下 所 示 ， 这 里 a 和 hb 都 是 
long 类 型 
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同 义 名 设置 条 件 

sete D setz DZF 相等 / 零 

setne DD setnz D < -~ZF 不 等 / 非 零 

sets D 万 二 SF 负数 

setns D D<-~SF 非 负 数 

setg D setnle D < ~(SF ~ OF) & ~ZF 大 于 (有 符号 > ) 

setge D setnl D < ~(SF ~ OF) 大 于 等 于 (有 符号 >= ) 

set1 D setnge D<e-SsSF~OF 小 于 (有 符号 <) 

setle D setng D<(SF~OF)|ZF 小 于 等 于 (有 符号 <=) 

seta D setnbe D < ~CF & ~ZF 超过 (无 符号 > ) 

setae D setnb D<~CF 超过 或 相等 (无 符号 >=) 

setb D setnae DCF 低 于 (无 符号 <) 

setbe D setna D<CFI|ZF 低 于 或 相等 (无 符号 <= ) 
图 3-14 SET 。 每 条 指令 根据 条 件 码 的 某 种 组 合 ， 将 一 个 字 节 设置 为 0 或 者 1。 


指令 
有 些 指令 有 “ 同 义 名 ”， 也 就 是 同一 条 机 器 指令 有 别 的 名 字 


int comp(data_t a, data_t b) 
a an rai bin Wesi 


| comp: 

人 cmpq %rsi, %rdi Compare a:b 

3 setl %al Set low-order byte of YXeax to 0 or!1 
4 movzbl %al, %eax Clear rest of %eax (and rest of Yrax) 
3 ret 


注意 cmpq 指令 的 比较 顺序 (第 2 行 )。 虽 然 参数 列 出 的 顺序 先是 srsi(b) 再 是 srdi(Ca)， 
实际 上 比较 的 是 a 和 b。 还 要 记得 ， 正 如 在 3. 4. 2 节 中 讨论 过 的 那样 ，movzbl 指令 不 仅 会 
把 seax 的 高 3 个 字 节 清 零 ， 还 会 把 整个 寄存 器 srax 的 高 4 个 字 节 都 清 零 。 

: 某 些 底层 的 机 器 指令 可 能 有 多 个 名 字 ， 我 们 称 之 为 “ 同 义 名 (synonym)”。 比 如 说 ， 
setg( 表 示 “ 设 置 大 于 ”) 和 setnle( 表 示 “ 设 置 不 小 于 等 于 ”) 指 的 就 是 同一 条 机 器 指令 。 
编译 器 和 反 汇 编 器 会 随意 决定 使 用 哪个 名 字 。 

虽然 所 有 的 算术 和 逻辑 操作 都 会 设置 条 件 码 ， 但 是 各 个 SET 命令 的 描述 都 适用 
的 情况 是 : 执行 比较 指令 ， 根据 计 算 t =a-b 设 置 条 件 码 。 更 具体 地 说 ,假设 a、5 和 + 
分 别 是 变量 a、b 和 七 的 补 码 形式 表示 的 整数 ， 因 此 t 二 a 一 6， 这 里 多 取决 于 a 和 6。 
的 大 小 。 

来 看 sete 的 情况 ， 即 “ 当 相 等 时 设置 (set when equal)” 指 令 。 当 4a=6 时 ,会 得 到 :二 0， 
因此 零 标 志 置 位 就 表示 相等 。 类 似 地 ， 考 虑 用 setl1， 即 “ 当 小 于 时 设置 (set when less)” 指 
令 ， 测 试 一 个 有 符号 比较 。 当 没有 发 生 溢出 时 (oF 设置 为 0 就 表明 无 溢出 )， 我 们 有 当 a 一 ,6 二 0 
时 a<b， 将 SF 设置 为 1 即 指明 这 一 点 ， 而 当 4a 一 wb 之 0 时 ac 之， 由 SF 设置 为 0 指明 。 男 一 
方面 ， 当 发 生 溢出 时 ， 我 们 有 当 a 一 :6 之 0( 负 溢出 ) 时 4a<b， 而 当 a 一 ww 过 0( 正 溢出 ) 时 a 过 6。 
当 e 一 时， 不 会 有 溢出 。 因 此 ， 当 oF 被 设置 为 1 时 ， 当 且 仅 当 SF 被 设置 为 0， 有 a<5b。 将 
这 些 情况 组 合 起 来 ， 溢 出 和 符号 位 的 EXCLUSIVE-OR 提供 了 a<<8 是 否 为 真 的 测试 。 其 他 的 
有 符号 比较 测试 基于 SF ^ OF 和 zF 的 其 他 组 合 。 

对 于 无 符号 比较 的 测试 ， 现 在 设 a 和 2 是 变量 a 和 b 的 无 符号 形式 表示 的 整数 。 在 执 
行 计算 t=a-b 中 ， 当 a 一 6 过 0 时 ，CMP 指令 会 设置 进位 标志 ， 因 而 无 符号 比较 使 用 的 是 
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进位 标志 和 零 标 志 的 组 合 。 
注意 到 机 器 代码 如 何 区 分 有 符号 和 无 符号 值 是 很 重要 的 。 同 C 语言 不 同 ， 机 器 代码 不 
会 将 每 个 程序 值 都 和 一 个 数据 类 型 联系 起 来 。 相 反 ， 大 多 数 情 况 下 ， 机 器 代码 对 于 有 符号 
和 无 符号 两 种 情况 都 使 用 一 样 的 指令 ， 这 是 因为 许多 算术 运算 对 无 符号 和 补 码 算术 都 有 一 
样 的 位 级 行为 。 有 些 情 况 需 要 用 不 同 的 指令 来 处 理 有 符号 和 无 符号 操作 ， 例 如 ， 使 用 不 同 
版 本 的 右 移 、 除 法 和 乘法 指令 ， 以 及 不 同 的 条 件 码 组 合 。 
巧 S 练习 题 3. 13 考虑 下 列 的 C 语言 代码 : 
int comp(data_t a, data_t b) + 
return a COMP b; 
} 
它 给 出 了 参数 a 和 bb 之 间 比 较 的 一 般 形式 ， 这里， 参数 的 数据 类 型 data_t( 通 过 
typedef) 被 声明 为 表 3-1 中 列 出 的 某 种 整数 类 型 ， 可 以 是 有 符号 的 也 可 以 是 无 符号 的 
comp 通过 #define 来 定义 。 
假设 a 在 srdi 中 某 个 部 分 ，b 在 $rsi 中 某 个 部 分 。 对 于 下 面 每 个 指令 序列 ， 确 
定 哪 种 数据 类 型 data 七 和 比较 COMP 会 导致 编译 器 产生 这 样 的 代码 。( 可 能 有 多 个 正 
确 答 案 ， 请 列 出 所 有 的 正确 答案 。) 
A. cmpl Wesi, Wedi 
setl %al 
B. cmpw %si, %di 
setge  %al 
C. cmpb %sil, %dil 
setbe %al 


D. cmpq %rsi, %rdi 
setne %a 


和 练习 题 3. 14 ”考虑 下 面 的 C 语言 代码 : 


int test(data_t a) { 
return a TEST 0; 





} 
它 给 出 了 参数 a 和 0 之 间 比 较 的 一 般 形 式 ， 这里， 我 们 可 以 用 typedef 来 声明 data t， 
从 而 设置 参数 的 数据 类 型 ， 用 # define 来 声明 TEST， 从 而 设置 比较 的 类 型 。 对 于 下 
面 每 个 指令 序列 ， 确 定 哪 种 数据 类 型 data 七 和 比较 TEST 会 导致 编译 器 产生 这 样 的 
代码 。( 可 能 有 多 个 正确 答案 ， 请 列 出 所 有 的 正确 答案 。) 
A. testq Mrdi，%rdi 

setge ‘%al 
B. testw %di, %di 


sete %al 

C. testb %dil, %dil 
seta %al 

D. test1 Wedi, %edi 
setne %al 


3.6.3 跳 转 指 令 


正常 执行 的 情况 下 ， 指 令 按照 它们 出 现 的 顺序 一 条 一 条 地 执行 。 跳 转 (jump) 指 令 会 导 
致 执行 切换 到 程序 中 一 个 全 新 的 位 置 。 在 汇编 代码 中 ， 这 些 跳 转 的 目的 地 通常 用 一 个 标号 
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(label) 指 明 。 考 虑 下 面 的 汇编 代码 序列 (完全 是 人 为 编造 的 ): 


movd $0,%rax Set Yrax to 0 

jmp .L1 Goto .L1 

movd (%rax),%rdx Null pointer dereference (skipped) 
1: 

popgq yrdx Jump target 


指令 jmp .L1 会 导致 程序 跳 过 movq 指令 ， 而 从 popq 指令 开始 继续 执行 。 在 产生 目标 
”代码 文件 时 ， 汇 编 器 会 确定 所 有 带 标号 指令 的 地 址 ， 并 将 跳 转 目标 (目的 指令 的 地 址 ) 编 码 
为 跳 转 指令 的 一 部 分 。 

图 3-15 列举 了 不 同 的 跳 转 指令 。jmp 指令 是 无 条 件 跳 转 。 它 可 以 是 直接 跳 转 ， 即 跳 转 
目标 是 作为 指令 的 一 部 分 编码 的 ; 也 可 以 是 间接 跳 转 ， 即 跳 转 目标 是 从 寄存 器 或 内 存 位 置 
中 读 出 的 。 汇 编 语言 中 ， 直 接 跳 转 是 给 出 一 个 标号 作为 跳 转 目标 的 ， 例 如 上 面 所 示 代 码 中 
的 标号 “.L1”。 间 接 跳 转 的 写法 是 ‘* "后面 跟 一 个 操作 数 指示 符 ， 使 用 图 3-3 中 描述 的 内 
存 操作 数 格式 中 的 一 种 。 举 个 例子 ， 指 令 


jmp *%rax 
用 寄存 器 % rax 中 的 值 作 为 跳 转 目标 ， 而 指令 
jmp *(%rax) 


以 srax 中 的 值 作为 读 地 址 ， 从 内 存 中 读 出 跳 转 目标 。 


B 和 条 作 | 措 述 | 


Label 直接 跳 转 
*Operand . 间接 跳 转 


Label j ZF 相等 / 零 

Label j ~ZF 不 相等 / 非 零 

Label SF 负数 

Label ~SF 非 负 数 

Label j ~(SF ~ OF) & ~ZF 大 于 (有 符号 > ) 

Label j ~(SF ~ OF) 大 于 或 等 于 ( 有 符号 >= ) 
Label j SF ~ OF 小 于 (有 符号 < ) 

Label j (SF ~ OF) | ZF 小 于 或 等 于 ( 有 符号 <= ) 
Label j ~CF & ~ZF 超过 (无 符号 > ) 

Label j ~CF 超过 或 相等 (无 符号 >=) 
Label j CF 低 于 (无 符号 < ) 

Label j CF | ZF 低 于 或 相等 ( 无 符号 <= ) 





图 3-15 jump 指令 。 当 跳 转 条 件 满 足 时 ， 这 些 指令 会 跳 转 到 一 条 带 标号 的 目的 地 。 
有 些 指令 有 “ 同 义 名 ”， 也 就 是 同一 条 机 器 指令 的 别名 
表 中 所 示 的 其 他 跳 转 指令 都 是 有 条 件 的 一 一 它们 根据 条 件 码 的 某 种 组 合 ， 或 者 跳 转 ， 
或 者 继续 执行 代码 序列 中 下 一 条 指令 。 这 些 指令 的 名 字 和 跳 转 条 件 与 SET 指令 的 名 字 和 
设置 条 件 是 相 匹配 的 (参见 图 3-14) 。 同 SET 指令 一 样 ， 一 些 底层 的 机 器 指令 有 多 个 名 字 。 
条 件 跳 转 只 能 是 直接 跳 转 。 


3.6.4 跳 转 指令 的 编码 
虽然 我 们 不 关心 机 器 代码 格式 的 细节 ， 但 是 理解 跳 转 指令 的 目标 如 何 编码 ， 这 对 第 7 








章 研究 链接 非常 重要 。 此 外 ， 它 也 能 帮助 理解 反 汇编 器 的 输出 。 在 汇编 代码 中 ， 跳 转 目 标 
用 符号 标号 书写 。 汇 编 器 ， 以 及 后 来 的 链接 器 ， 会 产生 跳 转 目标 的 适当 编码 。 跳 转 指 令 有 
几 种 不 同 的 编码 ， 但 是 最 常用 都 是 PC 相对 的 (PC-relative)。 也 就 是 ， 它 们 会 将 目标 指令 
的 地 址 与 紧 跟 在 跳 转 指令 后 面 那 条 指令 的 地 址 之 间 的 差 作为 编码 。 这 些 地 址 偏 移 量 可 以 编 
码 为 1、2 或 4 个 字 节 。 第 二 种 编码 方法 是 给 出 “绝对 ”地 址 ， 用 4 个 字 节 直接 指定 目标 。 
汇编 器 和 链接 器 会 选择 适当 的 跳 转 目 的 编码 。 

下 面 是 一 个 PC 相对 寻 址 的 例子 ， 这 个 函数 的 汇编 代码 由 编译 文件 branch. c 产 生 。 它 
包含 两 个 跳 转 : 第 2 行 的 jmp 指令 前 向 跳 转 到 更 高 的 地 址 ， 而 第 7 行 的 jg 指令 后 向 跳 转 
到 较 低 的 地 址 。 


movq %rdi, %rax 
jmp .L2 


sarqg Xrax 


testq %rax, “rax 


DDNwmhwhN 一 
Dh 


jg .L3 
rep; ret 
汇编 器 产生 的 “.o” 格 式 的 反 汇 编 版 本 如 下 : 
1 0: 48 89 f8 mov %rdi,%rax 
2 3: eb 03 jmp 8 <loop+0x8> 
3 5 48 dl f8 Sar %rax 
4 8 48 85 c0 test hrax, hrax 
§ b 7f £8 jg 5 <loopt+Ox5> 
6 d f3 c3 repz retq 


右边 反 汇编 器 产生 的 注释 中 ,第 2 行 中 跳 转 指令 的 跳 转 目标 指明 为 ox8， 第 5 行 中 跳 
转 指 令 的 跳 转 目标 是 0x5( 反 汇编 器 以 十 六 进 制 格式 给 出 所 有 的 数字 )。 不 过 ， 观 察 指 令 的 
字 节 编码 ， 会 看 到 第 一 条 跳 转 指令 的 目标 编码 (在 第 二 个 字 节 中 ) 为 0x03。 把 它 加 上 0x5， 
也 就 是 下 一 条 指令 的 地 址 ， 就 得 到 跳 转 目标 地 址 0x8， 也 就 是 第 4 行 指令 的 地 址 。 

类 似 ， 第 二 个 跳 转 指令 的 目标 用 单字 节 、 补 码 表示 编码 为 0xf8( 十 进 制 -8) 。 将 这 个 数 
加 上 0xq( 十 进 制 13) ， 即 第 6 行 指令 的 地 址 ， 我 们 得 到 0x5， 即 第 3 行 指令 的 地 址 。 

这 些 例子 说 明 ， 当 执行 PC 相对 寻 址 时 ， 程 序 计 数 器 的 值 是 跳 转 指令 后 面 的 那 条 指令 
的 地 址 ， 而 不 是 跳 转 指令 本 身 的 地 址 。 这 种 惯例 可 以 追溯 到 早期 的 实现 ， 当 时 的 处 理 器 会 
将 更 新 程序 计数 器 作为 执行 一 条 指令 的 第 一 步 。 


下 面 是 链接 后 的 程序 反 汇编 版 本 : 

1 4004d0: 48 89 f8 mov %rdi,%rax 

2 4004d3: ”eb 03 jmp 4004d8 <loop+0x8> 
3 4004d5: 48 di f8 sar %rax 

4 4004d8: 48 85 c0 test hrax,%rax 

6 4004db: 7f f8 jg 4004d5 <loop+0x5> 
6 4004dd: f£3 c3 repz retq 


这 些 指 令 被 重 定位 到 不 同 的 地 址 ,但 是 第 2 行 和 第 5 行 中 跳 转 目标 的 编码 并 没有 变 。 
通过 使 用 与 PC 相对 的 跳 转 目标 编码 ， 指 令 编 码 很 简洁 (只 需要 2 个 字 节 )， 而 且 目 标 代 码 
可 以 不 做 改变 就 移 到 内 存 中 不 同 的 位 置 。 
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攻 了 指令 rep 和 repz 有 什么 用 

本 节 开 始 的 汇编 代码 的 第 8 行 包 含 指 令 组 合 rep; ret。 它 们 在 反 汇 编 代 码 中 (第 6 
行 ) 对 应 于 repz retq。 可 以 推测 出 repz 是 rep 的 同 义 名 ， 而 retq 是 ret 的 同 义 名 。 
查阅 Intel 和 AMD 有 关 rep 的 文档 ， 我 们 发 现 它 通 常用 来 实现 重复 的 字符 串 操 作 [3， 
51]。 在 这 里 用 它 似乎 很 不 合适 。 这 个 问题 的 答案 可 以 在 AMD 给 编译 器 编写 者 的 指导 
意见 书 [1] 中 找到 。 他 们 建议 用 rep 后面 跟 ret 的 组 合 来 避免 使 ret 指令 成 为 条 件 跳 转 
指令 的 目标 。 如 果 没 有 rep 指令 ， 当 分 支 不 跳 转 时 ，jg 指令 (汇编 代码 的 第 7 行 ) 会 继 
续 到 ret 指令 。 根 据 AMD 的 说 法 ， 当 ret 指令 通过 跳 转 指令 到 达 时 ， 处 理 器 不 能 正确 
预测 ret 指令 的 目的 。 这 里 的 rep 指令 就 是 作为 一 种 空 操作 ， 因 此 作为 跳 转 目 的 插入 
它 ， 除 了 能 使 代码 在 AMD 上 运行 得 更 快 之 外 ， 不 会 改变 代码 的 其 他 行为 。 在 本 书后 面 
其 他 代码 中 再 遇 到 rep 或 repz 时 ， 我 们 可 以 很 放心 地 无 视 它 们 。 
让 练习 题 3. 15 ”在 下 面 这 些 反 汇编 二 进 制 代码 节选 中 ， 有 些 信息 被 义 人 代替 了 。 回 答 下 


列 关 于 这 些 指令 的 问题 。 
A. 下 面 je 指令 的 目标 是 什么 ? (在 此 ， 你 不 需要 知道 任何 有 关 callq 指令 的 信息 。) 


4003fa: 74 02 je XXXXXX 

4003fc: ff dO callq *%rax 
B. 下 面 je 指令 的 目标 是 什么 ? 

40042f: 74 f4 je XXXXXX 

400431: 5d pop %rbp 
C. ja 和 pop 指令 的 地 址 是 多 少 ? 

XXXXXX: 77 02 ja 400547 

XXXXXX: 5d pop %rbp 


D. 在 下 面 的 代码 中 ， 跳 转 目标 的 编码 是 PC 相对 的 ， 且 是 一 个 4 字 节 补 码 数 。 字 节 按 
照 从 最 低位 到 最 高 位 的 顺序 列 出 ， 反 映 出 x86-64 的 小 端 法 字 节 顺序 。 跳 转 目 标的 


地 址 是 什么 ? 
4005e8: e9 73 ff ff ff jmpq XXXXXXX 
4005ed: 90 nop 


跳 转 指令 提供 了 一 种 实现 条 件 执行 (if) 和 几 种 不 同 循环 结构 的 方式 。 


3.6.5 用 条 件 控制 来 实现 条 件 分 支 


将 条 件 表达 式 和 语句 从 C 语言 翻译 成 机 器 代码 ， 最 常用 的 方式 是 结合 有 条 件 和 无 条 件 
跳 转 。( 另 一 种 方式 在 3. 6. 6 节 中 会 看 到 ， 有 些 条 件 可 以 用 数据 的 条 件 转 移 实 现 ， 而 不 是 
用 控制 的 条 件 转移 来 实现 。) 例 如 ， 图 3-16a 给 出 了 一 个 计算 两 数 之 差 绝 对 值 的 函数 的 C 代 
码 5 。 这 个 函数 有 一 个 副作用 ， 会 增加 两 个 计数 器 ， 编 码 为 全 局 变量 1t_cnt 和 ge cnt 之 
一 。GCC 产生 的 汇编 代码 如 图 3-16c 所 示 。 把 这 个 机 器 代码 再 转换 成 C 语言 ， 我 们 称 之 为 
函数 gotodiff se( 图 3-16b) 。 它 使 用 了 C 语言 中 的 goto 语句 ， 这 个 语句 类 似 于 汇编 代 
码 中 的 无 条 件 跳 转 。 使 用 goto 语句 通常 认为 是 一 种 不 好 的 编程 风格 ， 因 为 它 会 使 代码 非 





加 ”实际 上 ， 如 果 一 个 减法 溢出 ， 这 个 函数 就 会 返回 一 个 负数 值 。 这 里 我 们 主要 是 为 了 展示 机 器 代码 ， 而 不 是 
实现 代码 的 健壮 性 。 
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常 难以 阅读 和 调试 。 本 文中 使 用 goto 语句 ， 是 为 了 构造 描述 汇编 代码 程序 控制 流 的 C 程 
序 。 我 们 称 这 样 的 编程 风格 为 “goto 代码 ”。 

在 goto 代码 中 (图 3-16b)， 第 5 行 中 的 goto x_ge_y 语 句 会 导致 跳 转 到 第 9 行 中 的 标 
号 x_ge_y 人 处 ( 当 zx 宇 y 时 会 进行 跳 转 ) 。 从 这 一 点 继续 执行 ， 完 成 函数 absqiff se 的 
else 部 分 并 返回 。 另 一 方面 ， 如 果 测 试 x>=y 失 败 ， 程 序 会 计算 absdiff se 的 if 部 分 
指定 的 步骤 并 返回 。 

汇编 代码 的 实现 (图 3-16c) 首 先 比较 了 两 个 操作 数 ( 第 2 行 )， 设置 条 件 码 。 如 果 比 较 
的 结果 表明 x 大 于 或 者 等 于 y， 那 么 它 就 会 跳 转 到 第 8 行 ， 增 加 全 局 变量 ge_cnt, 计算 x 
-y 作为 返回 值 并 返回 。 由 此 我 们 可 以 看 到 absdiff_se 对 应 汇编 代码 的 控制 流 非 常 类 似 于 
gotodiff_ se 的 goto 代码 。 | 










long lt_cnt = 1 long gotodiff_se(long x, long y) 
long ge_cnt 六 站 
3 long result; 
long absdiff_se(long x, long y) 4 if (x >= y) 
{ 5 goto x_ge_y; 

long result; 6 lt_cnt++; 

1 (x 7 result = y- Xx; 
lt_cnt++; 8 return result; 
result =y- Xx; 9 x_ge_y: 

} 10 ge_cnt++; 

else { 而 result = X - yi; 


ge_cCnt++ ; 
result = X ~ y; 


return result; 






} 


return result; 





a) 原始 的 C 语 言 代码 b ) 与 之 等 价 的 got o 版 本 


long absdiff_se(long x, long y) 
wn Vii, in Nai 
absdiff_se: 
cmpq %rsi, %rdi Compare x:y 
jge .L2 If >= goto x_ge_y 
addq $1 Le cnt (Xrip) 1t_cnt++ 
movdq %rsi, %rax 


subq %rdi, %rax result =y-x 
ret Return 


12: x_ge_y: 
addq $1, ge_cnt(%rip) ge_cnt++ 
movdq %rdi, %rax 
subq %rsi, %rax result =x-y 
ret Return 





c) 产生 的 汇编 代码 


图 3-16 条件 语句 的 编译 。a)C 过 程 absdiff_se 包含 一 个 if-else 语句; b)C 过 程 gotodiff se 
模拟 了 汇编 代码 的 控制 ; c) 给 出 了 产生 的 汇编 代码 
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C 语 言 中 的 if-else 语句 的 通用 形式 模板 如 下 : 
if (test-expr) 

then-statement 
else 


else-statement 


这 里 testrexpr 是 一 个 整数 表达 式 ， 它 的 取 值 为 0( 解 释 为 “ 假 ”) 或 者 为 非 0( 解 释 为 “ 真 ”)。 


两 个 分 支 语 句 中 (themrstatement 或 else-statement) 只 会 执行 一 个 。 


对 于 这 种 通用 形式 ， 汇 编 实现 通常 会 使 用 下 面 这 种 形式 ， 这 里 ， 我 们 用 C 语法 来 描述 
控制 流 : 

t = test-expr; 

if (!t) 

goto false; 

then-statement 

goto done; 
false: 


else-statement 
done: 


也 就 是 ， 汇 编 器 为 ther-statement 和 else-statement 产生 各 自 的 代码 块 。 它 会 插入 条 件 
和 无 条 件 分 支 ， 以 保证 能 执行 正确 的 代码 块 。 


| 旁 注 | 用 C 代码 描述 机 器 代码 
图 3-16 给 出 了 一 个 示例 ， 用 来 展示 把 C 语言 控制 结构 翻译 成 机 器 代码 。 图 中 包括 


示例 的 C 函数 a 和 由 GCC 生成 的 汇编 代码 的 注释 版 本 c， 还 有 一 个 与 汇编 代码 结构 高 度 


一 致 的 C 语 言 版 本 b。 机 器 代码 的 C 语言 表示 有 助 于 你 理解 其 中 的 关键 点 ， 能 引导 你 理 
解 实际 的 汇编 代码 。 


BS 练习 题 3.16 已 知 下 列 C 代 码 : 
void cond(long a, long *p) 


{ 
if (p && a > *p) 
*Pp = a; 
. 
GCC 会 产生 下 面 的 汇编 代码 : 


void cond(long a, long *p) 
a nn Xrdi, Bp in hresi 


cond: 
testq  %rsi, %rsi 
je .L1 
cmpq %rdi, (%rsi) 
jge ‘Li 
movqd %rdi, (%rsi) 
sb1: 
rep; ret 














A 按照 S 3-16b 中 所 示 的 风格 ， 用 C 语言 写 一 个 goto 版 本 ， 执行 同样 的 计算 ， 并 模 
拟 汇 编 代 码 的 控制 流 。 像 示例 中 那样 给 汇编 代码 加 上 注解 可 能 会 有 所 帮助 。 


B. 请 说 明 为 什么 C 语 言 代码 中 只 有 一 个 证 语句 ， 而 汇编 代码 包含 两 个 条 件 分 支 。 
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忆 练习 题 3. 17 将 if 语句 翻译 成 goto 代码 的 另 一 种 可 行 的 规则 如 下 : 
t = test-expr; 
if (t) 
goto true; 

else-statement 
goto done ; 

true: 
then-statement 

done: 


A. 基于 这 种 规则 ， 重 写 absdiff se 的 goto 版本。 
B. 你 能 想 出 选用 一 种 规则 而 不 选用 另 一 种 规则 的 理由 吗 ? 
可 S 练习 题 3. 18 ”从 如 下 形式 的 C 语言 代码 开始 : 


long test(long x, long y, long z) { 
long val = ，; 


i = 


WL 
» olse if (= ) 
Val 各 
return val; 
J 
GCC 产生 如 下 的 汇编 代码 : 
long test(long x, long y, long 2) 
Xn Wrdi; y dn reis zn Xrdr 
test: 
leaq (Wrdi,%rsi), %rax 
addq %rdx, %rax 
cmpq $-3, %rdi 


jge :2 
cmpq %rdx, %rsi 
jge .L3 
movdq %rdi, %rax 
imulq  %rsi, %rax 
ret 
i:L3: 
movq %rsi, %rax 
imulq %rdx, %rax 
ret 
12: 
cmpq $2, %rdi 
jle .L4 
movq %rdi, %rax 
imulq %rdx, %rax 
.L4: 
rep; ret 


填写 C 代码 中 缺失 的 表达 式 。 
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3.6.6 用 条 件 传送 来 实现 条 件 分 支 


实现 条 件 操作 的 传统 方法 是 通过 使 用 控制 的 条 件 转移 。 当 条 件 满足 时 ， 程 序 沿 着 一 条 
执行 路 径 执 行 ， 而 当 条 件 不 满足 时 ， 就 走 另 一 条 路 径 。 这 种 机 制 简单 而 通用 ， 但 是 在 现代 
处 理 器 上 ， 它 可 能 会 非常 低 效 。 

一 种 替代 的 策略 是 使 用 数据 的 条 件 转移 。 这 种 方法 计算 一 个 条 件 操作 的 两 种 结果 ， 然 
后 再 根据 条 件 是 否 满足 从 中 选取 一 个 。 只 有 在 一 些 受 限制 的 情况 中 ， 这 种 策略 才 可 行 ， 但 
是 如 果 可 行 ， 就 可 以 用 一 条 简单 的 条 件 传送 指令 来 实现 它 ， 条 件 传送 指令 更 符合 现代 处 理 
器 的 性 能 特性 。 我 们 将 介绍 这 一 策略 ， 以 及 它 在 x86-64 上 的 实现 。 

图 3-17a 给 出 了 一 个 可 以 用 条 件 传送 编译 的 示例 代码 。 这 个 函数 计算 参数 x 和 y 差 的 
绝对 值 ， 和 前 面 的 例子 一 样 (图 3-16) 。 不 过 前 面 的 例子 中 ， 分 支 里 有 副作用 ， 会 修改 1t_ 
cnt 或 ge_cnt 的 值 ， 而 这 个 版 本 只 是 简单 地 计算 函数 要 返回 的 值 。 

GCC 为 该 函数 产生 的 汇编 代码 如 图 3-17c 所 示 ， 它 与 图 3-17b 中 所 示 的 C 函数 
cmovdiff 有 相似 的 形式 。 研 究 这 个 C 版 本 ， 我 们 可 以 看 到 它 既 计算 了 y-x, 也 计算 了 x-y， 
分 别 命名 为 rval 和 eval。 然 后 它 再 测试 x 是 否 大 于 等 于 y， 如 果 是 ， 就 在 函数 返回 rval 
前 ,将 eval 复制 到 rval 中 。 图 3-17c 中 的 汇编 代码 有 相同 的 逻辑 。 关 键 就 在 于 汇编 代码 的 那 
条 cmovge 指令 (第 7 行 ) 实 现 了 cmovdiff 的 条 件 赋值 (第 8 行 )。 只 有 当 第 6 行 的 cmpq 指令 表明 
一 个 值 大 于 等 于 另 一 个 值 (正如 后 缀 ge 表明 的 那样 ) 时 ， 才 会 把 数据 源 寄存 器 传送 到 目的 。 




















long absdiff(long x, long y) 1 long cmovdiff(long x, long y) 
{ 2 并 
long result; 8 long rval = y-x; 
if (x < y) 4 long eval = x-y; 
result =y— xX; 5 long ntest = x >= y; 
else 6 /* Line below requires 
result = x-y; 7 single instruction: */ 
return result; 8 if (ntest) rval = eval; 
} 9 return rval; 
10 3} 
a ) 原始 的 C 语 言 代码 b ) 使 用 条 件 赋值 的 实现 
long absdiff (long x, long y) 
# dn Wradily, yy La Nei 
1 absdiff: 
2 movg %rsi, %rax 
3 subq %rdi, %rax rval = y-x 
4 movd %rdi, %rdx 
5 subq %rsi, %rdx eval = x-y 
6 cmpq %rsi, %rdi Compare x:y 
7 cmovge %rdx, %rax If >=, rval = eval 
8 ret Return tval 











c ) 产生 的 汇编 代码 


图 3-17 使 用 条 件 赋值 的 条 件 语句 的 编译 。a)C 函数 absdiff 包含 一 个 条 件 表达 式 ; 
b)C 函数 cmovadiff 模拟 汇编 代码 操作 ; c) 给 出 产生 的 汇编 代码 
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为 了 理解 为 什么 基于 条 件数 据 传送 的 代码 会 比 基 于 条 件 控 制 转移 的 代码 (如 图 3-16 中 
那样 ) 性 能 要 好 ， 我 们 必须 了 解 一 些 关 于 现代 处 理 器 如 何 运 行 的 知识 。 正 如 我 们 将 在 第 4 
章 和 第 5 章 中 看 到 的 ， 处 理 器 通过 使 用 流水 线 (pipelining) 来 获得 高 性 能 ， 在 流水 线 中 ， 一 
条 指令 的 处 理 要 经 过 一 系列 的 阶段 ， 每 个 阶段 执行 所 需 操 作 的 一 小 部 分 (例如 ， 从 内 存 取 
指令 、 确 定 指令 类 型 、 从 内 存 读数 据 、 执 行 算 术 运 算 、 向 内 存 写 数据 ， 以 及 更 新 程序 计数 
器 )。 这 种 方法 通过 重合 连续 指令 的 步骤 来 获得 高 性 能 ， 例 如 ， 在 取 一 条 指令 的 同时 ， 执 
行 它 前 面 一 条 指令 的 算术 运算 。 要 做 到 这 一 点 ， 要 求 能 够 事先 确定 要 执行 的 指令 序列 ， 这 
样 才 能 保持 流水 线 中 充满 了 待 执 行 的 指令 。 当 机 器 遇 到 条 件 跳 转 ( 也 称 为 “分 支 ”) 时 ， 只 
有 当 分 支 条 件 求 值 完成 之 后 ， 才 能 决定 分 支 往 哪 边 走 。 处 理 器 采用 非常 精密 的 分 支 预测 过 
辑 来 猜测 每 条 跳 转 指令 是 否 会 执行 。 只 要 它 的 猜测 还 比较 可 靠 ( 现 代 微 处 理 器 设计 试图 达 
到 90%% 以 上 的 成 功率 ) ， 指 令 流 水 线 中 就 会 充满 着 指令 。 另 一 方面 ， 错 误 预 测 一 个 跳 转 ， 
要 求 处 理 器 丢掉 它 为 该 跳 转 指令 后 所 有 指令 已 做 的 工作 ， 然 后 再 开始 用 从 正确 位 置 处 起 始 
的 指令 去 填充 流水 线 。 正 如 我 们 会 看 到 的 ， 这 样 一 个 错误 预测 会 招致 很 严重 的 惩罚 ， 浪 费 
大 约 15~30 个 时 钟 周期 ， 导 致 程序 性 能 严重 下 降 。 

作为 一 个 示例 ， 我 们 在 Intel Haswell 处 理 器 上 运行 absdiff 函数 ， 用 两 种 方法 来 实 
现 条 件 操 作 。 在 一 个 典型 的 应 用 中 ，x< y 的 结果 非常 地 不 可 预测 ， 因 此 即使 是 最 精密 的 
分 支 预测 硬件 也 只 能 有 大 约 50% 的 概率 猜 对 。 此 外 ， 两 个 代码 序列 中 的 计算 执行 都 只 需要 
一 个 时 钟 周 期 。 因 此 ， 分 支 预测 错误 处 罚 主导 着 这 个 函数 的 性 能 。 对 于 包含 条 件 跳 转 的 
x86-64 代码 ， 我 们 发 现 当 分 支行 为 模式 很 容易 预测 时 ， 每 次 调用 函数 需要 大 约 8 个 时 钟 周 
期 ;而 分 支行 为 模式 是 随机 的 时 候 ， 每 次 调用 需要 大 约 17. 50 个 时 钟 周期 。 由 此 我 们 可 以 
推断 出 分 支 预测 错误 的 处 罚 是 大 约 19 个 时 钟 周期 。 这 就 意味 着 函数 需要 的 时 间 范 围 大 约 
在 8 到 27 个 周期 之 间 ， 这 依赖 于 分 支 预测 是 否 正 确 。 


| 旁 注 如 何 确定 分 支 预测 错误 的 处 罚 

假设 预测 错误 的 概率 是 p， 如 果 没 有 预测 错误 ， 执 行 代码 的 时 间 是 Tok ， 而 预测 错 
误 的 处 罚 是 Te。 那么 ， 作 为 户 的 一 个 函数 ， 执 行 代码 的 平均 时 间 是 Ts (Pp) 二 (1 一 p) 
Tor 十 p(Tox 十 Typ) 二 Tor 十 pTyxp。 如 果 已 知 Tokc 和 Ts( 当 pp 二 0.5 时 的 平均 时 间 )， 要 
确定 Typ。 将 参数 代入 等 式 ， 我 们 有 Tu 一 To(0.5) 一 Tok 十 0.5Twp， 所 以 有 Tvp 一 2 
《Ja 一 Tokg)。 因 此 ， 对 于 Tok 王 8 和 Tw 二 17.5， 我 们 有 Tu 一 19。 


另 一 方面 ， 无 论 测试 的 数据 是 什么 ， 编 译 出 来 使 用 条 件 传送 的 代码 所 需 的 时 间 都 是 大 
约 8 个 时 钟 周 期 。 控 制 流 不 依赖 于 数据 ， 这 使 得 处 理 器 更 容易 保持 流水 线 是 满 的 。 
BS 练习 题 3. 19 在 一 个 比较 旧 的 处 理 器 模型 上 运行 ， 当 分 支行 为 模式 非常 可 预测 时 ， 我 

们 的 代码 需要 大 约 16 个 时 钟 周期 ， 而 当 模 式 是 随机 的 时 候 ， 需 要 大 约 31 个 时 钟 周期 。 

A. 预测 错误 处 罚 大 约 是 多 少 ? 

B. 当 分 支 预 测 错误 时 ， 这 个 函数 需要 多 少 个 时 钟 周 期 ? 

图 3-18 列举 了 x86-64 上 一 些 可 用 的 条 件 传送 指令 。 每 条 指令 都 有 两 个 操作 数 ， 源 寄 
存 器 或 者 内 存 地 址 S， 和 目的 寄存 器 R。 与 不 同 的 SET(3. 6. 2 节 ) 和 跳 转 指令 (3.6.3 节 ) 
一 样 ， 这 些 指令 的 结果 取决 于 条 件 码 的 值 。 源 值 可 以 从 内 存 或 者 源 寄存 器 中 读 取 ， 但 是 只 
有 在 指定 的 条 件 满足 时 ， 才 会 被 复制 到 目的 寄存 器 中 。 

源 和 目的 的 值 可 以 是 16 位 、32 位 或 64 位 长 。 不 支持 单字 节 的 条 件 传送 。 无 条 件 指令 的 操 
作 数 的 长 度 显 式 地 编码 在 指令 名 中 (例如 movw 和 mov1)， 汇 编 器 可 以 从 目标 寄存 器 的 名 字 推 断 
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”出 条 件 传送 指令 的 操作 数 长 度 ， 所 以 对 所 有 的 操作 数 长 度 ， 都 可 以 使 用 同一 个 的 指令 名 字 。 























cmove SS,R CIOVZ ZF 相等 / 零 
cmovne S,R cmovnz ~ZF 不 相等 / 非 零 
cmovs 5,R SF 负数 
cmovns 5,R ~SF 非 负数 
cmovg 5,R cmovnle ~(SF ~ OF) & ~ZF 大 于 (有 符号 > ) 
cmovge 9, 民 cmovnl ~(SF ~ OF) 大 于 或 等 于 ( 有 符号 >= ) 
cmovl S$,R cmovnge SF ~ OF 小 于 (有 符号 < ) 
cmovle S$,R cmovng (SF ~ OF) | ZF 小 于 或 等 于 ( 有 符号 <= ) 
cmova S$,R cmovnbe ~CF & ~ZF 超过 (无 符号 > ) 
cmovae 9, 尺 cmovnb ~CF 超过 或 相等 ( 无 符号 >=) 
cmovb S$S,R cmovnae CF 低 于 (无 符号 < ) 

| cmovbe S$,R cmovna CF | ZF 低 于 或 相等 (无 符号 <=) 





图 3-18 ”条件 传送 指令 。 当 传送 条 件 满足 时 ， 指 令 把 源 值 S 复 制 到 目的 R。 
有 些 指令 是 “ 同 义 名 ”， 即 同一 条 机 器 指令 的 不 同名 字 

同 条 件 跳 转 不 同 ， 处 理 器 无 需 预 测 测试 的 结果 就 可 以 执行 条 件 传送 。 处 理 器 只 是 读 源 
值 (可 能 是 从 内 存 中 )， 检 查 条 件 码 ， 然 后 要 么 更 新 目的 寄存 器 ， 要 么 保持 不 变 。 我 们 会 在 
第 4 章 中 探讨 条 件 传 送 的 实现 。 

为 了 理解 如 何 通过 条 件数 据 传输 来 实现 条 件 操作 ， 考 虑 下 面 的 条 件 表达 式 和 赋值 的 通 
用 形式 : 

V = test-expr ? then-expr : else-expr; 

用 条 件 控 制 转移 的 标准 方法 来 编译 这 个 表达 式 会 得 到 如 下 形式 : 


if (!test-expr) 


goto false; 
V = then-expr; 
goto done; 
false: 
V = else-expr; 
done : 


这 段 代码 包含 两 个 代码 序列 : 一 个 对 therrezpr 求 值 ， 另 一 个 对 else-expr 求 值 。 条 件 
跳 转 和 无 条 件 跳 转 结合 起 来 使 用 是 为 了 保证 只 有 一 个 序列 执行 。 

基于 条 件 传 送 的 代码 ， 会 对 therezxpr 和 else-expr 都 求 值 ， 最 终 值 的 选择 基于 对 test- 
ezpr 的 求 值 。 可 以 用 下 面 的 抽象 代码 描述 : 


V = then-expr; 
ve = else-expr; 
t = test-expr; 


if (LY Y = vey 
这 个 序列 中 的 最 后 一 条 语句 是 用 条 件 传送 实现 的 一 一 只 有 当 测 试 条 件 七 满足 时 ，vt 的 值 
才 会 被 复制 到 中 。 

不 是 所 有 的 条 件 表 达 式 都 可 以 用 条 件 传 送 来 编译 。 最 重要 的 是 ， 无 论 测 试 结果 如 何 ， 








我 们 给 出 的 抽象 代码 会 对 therexpr 和 else-expr 都 求 值 。 如 果 这 两 个 表达 式 中 的 任意 一 个 
可 能 产生 错误 条 件 或 者 副作用 ， 就 会 导致 非法 的 行为 。 前 面 的 一 个 例子 (图 3-16) 就 是 这 种 
情况 。 实 际 上 ， 我 们 在 该 例 中 引入 副作用 就 是 为 了 强制 GCC 用 条 件 转移 来 实现 这 个 函数 。 
作为 说 明 ， 考 虑 下 面 这 个 C 函数 : 
long cread(long *xp) { 
return (xp ? *xp : 0); 
} 
乍 一 看 ， 这 段 代码 似乎 很 适合 被 编译 成 使 用 条 件 传送 ， 当 指针 为 空 时 将 结果 设置 为 0， 
如 下 面 的 汇编 代码 所 示 : 
long cread(long *xp) 


Invalid implementation of function cread 


xp in register Yradi 


1 cread: 

2 movq (%rdi), %rax V = *xp 

3 testq  %rdi, %rdi Test x 

4 movl $0, %edx Sok Ve Si 

5 cmove  %rdx, %rax 于 x==0, vy = Ve 
6 ret Return T 


不 过 ， 这 个 实现 是 非法 的 ， 因 为 即使 当 测 试 为 假 时 ，movqa 指令 (第 2 行 ) 对 xp 的 间接 引用 
还 是 发 生 了 ， 导 致 一 个 间接 引用 空 指针 的 错误 。 所 以 ， 必 须 用 分 支 代 码 来 编译 这 段 代码 。 

使 用 条 件 传送 也 不 总 是 会 提高 代码 的 效率 。 例 如 ， 如 果 thermexpr 或 者 else-expr 的 求 
值 需要 大 量 的 计算 ， 那么 当 相 对 应 的 条 件 不 满足 时 ， 这 些 工作 就 白费 了 。 编 译 器 必须 考虑 
浪费 的 计算 和 由 于 分 支 预测 错误 所 造成 的 性 能 处 罚 之 间 的 相对 性 能 。 说 实话 ， 编 译 器 并 不 
具有 足够 的 信息 来 做 出 可 靠 的 决定 ; 例如 ， 它 们 不 知道 分 支 会 多 好 地 遵循 可 预测 的 模式 。 
我 们 对 GCC 的 实验 表明 ， 只 有 当 两 个 表达 式 都 很 容易 计算 时 ， 例 如 表达 式 分 别 都 只 是 一 
条 加 法 指令 ， 它 才 会 使 用 条 件 传送 。 根 据 我 们 的 经 验 ， 即 使 许多 分 支 预测 错误 的 开销 会 超 
过 更 复杂 的 计算 ，GCC 还 是 会 使 用 条 件 控制 转移 。 

所 以 ， 总 的 来 说 ， 条 件数 据 传 送 提供 了 一 种 用 条 件 控制 转移 来 实现 条 件 操作 的 替代 策 
略 。 它 们 只 能 用 于 非常 受 限 制 的 情况 ， 但 是 这 些 情 况 还 是 相当 常见 的 ， 而 且 与 现代 处 理 器 
的 运行 方式 更 契合 。 

巧 位 练习 题 3. 20 ”在 下 面 的 C 函数 中 ， 我 们 对 OP 操作 的 定义 是 不 完整 的 : 


#define OP | /* Unknown operator */ 


long arith(long x) { 
return x OP 8; 


} 
当 编 译 时 ，GCC 会 产生 如 下 汇编 代码 : 
long arith(Iong x) 
站 短 | 的 
arith: 
leaq 7(%rdi), %rax 
testq %rdi, %rdi 
cmovns Wrdi, %rax 
Sarq $3, %rax 
ret 
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A. OP 进行 的 是 什么 操作 ? 
B. 给 代码 添加 注释 ， 解 释 它 是 如 何 工作 的 。 
要 练习 题 3.21 C 代码 开 始 的 形式 如 下 : 


long test(long x, long y) 
Long Val SS 二 
EB Co 
(i 
Veal SS EEaasssae 
else 
Val 行 二 本 
} BLBe TE (0 
Val 5 


return val; 


} 
GCC 会 产生 如 下 汇编 代码 : 


long test(long x, long y) 
二 Wd, i WE 
test: 
leaq 0(,%rdi,8), %rax 
testq. %rsi, %rsi 


jle .L2 

movqg %rsi, %rax 
subq %rdi, %rax 
movq YXrdi ，%Trdx 


andq %rsi, %rdx 
cmpq wrsi, %rdi . 
cmovge “rdx, %rax 
ret 

‘LL2: 
addq %rsi, %rdi 
cmpq $-2，%rsi 
cmovle %rdi, %hrax 
ret 


填补 C 代码 中 缺失 的 表达 式 。 


3.6.7 循环 

C 语言 提供 了 多 种 循环 结构 ， 即 do-while、while 和 for。 汇 编 中 没有 相应 的 指令 
存在 ， 可 以 用 条 件 测试 和 跳 转 组 合 起 来 实现 循环 的 效果 。GCC 和 其 他 汇编 器 产生 的 循环 
代码 主要 基于 两 种 基本 的 循环 模式 。 我 们 会 循序 渐进 地 研究 循环 的 翻译 ， 从 do-while 开 
始 ， 然 后 再 研究 具有 更 复杂 实现 的 循环 ， 并 覆盖 这 两 种 模式 。 

1. do-while 循环 

do-while 语句 的 通用 形式 如 下 : 

do 


body-statement 
while (test-expr); 


这 个 循环 的 效果 就 是 重复 执行 bodystatement ， 对 test-ezpr 求 值 ， 如 果 求 值 的 结果 为 非 








零 ， 就 继续 循环 。 可 以 看 到 ，bodystatement 至 少 会 执行 一 次 。 
这 种 通用 形式 可 以 被 翻译 成 如 下 所 示 的 条 件 和 goto 语句: 
loop: 

body-statement 
t = test-expr; 
if (t) 

goto loop; 


也 就 是 说 ， 每 次 循环 ， 程 序 会 执行 循环 体 里 的 语句 ， 然 后 执行 测试 表达 式 。 如 果 测 试 为 
真 ， 就 回去 再 执行 一 次 循环 。 

看 一 个 示例 ， 图 3-19a 给 出 了 一 个 函数 的 实现 ， 用 do-while 循环 来 计算 函数 参数 的 
阶乘 ， 写 作 n!。 这 个 函数 只 计算 n 二 > 0 时 的 阶乘 的 值 。 
本 全 练习 题 3. 22 

A. 用 一 个 32 位 int 表示 nl!， 最 大 的 n 的 值 是 多 少 ? 

B. 如 果 用 一 个 64 位 long 表示 ， 最 大 的 n 的 值 是 多 少 ? 

图 3-19b 所 示 的 goto 代码 展示 了 如 何 把 循环 变 成 低级 的 测试 和 条 件 跳 转 的 组 合 。result 
初始 化 之 后 ， 程 序 开始 循环 。 首 先 执行 循环 体 ， 包 括 更 新 变量 result 和 n。 然 后 测试 4 之 1， 
如 果 是 真 ， 跳 转 到 循环 开始 处 。 图 3-19c 所 示 的 汇编 代码 就 是 goto 代码 的 原型 。 条 件 跳 转 指 
令 jg( 第 7 行 ) 是 实现 循环 的 关键 指令 ， 它 决定 了 是 需要 继续 重复 还 是 退出 循环 。 













long fact._do(long n) long fact_do_goto(long n) 
{ | 
long result = 1; long result = 1; 
do loop: 
result *= 1n; result *= n;. 
n= n-1l; nu 全 T=1; 
} while (n > 1); if (n > 1) 
return result; goto loop; 
} return result; 














a ) C 代码 b ) 等 价 的 goto 版 本 








long fact_do(long n) 
i dn Wrai 
1 fact_do: 
2 movl $1, heax | Set result =.1 
3 下 25 1oop: 
4 imulq  %rdi, %rax Compute result *= 1 
加 Subq $1, %rdi Decrement n 
6 cmpq $1, %rdi Compare n:1 
jg “LL2 If >, goto loop 
8 rep; ret Return 








c ) 对 应 的 汇编 代码 
图 3-19 阶乘 程序 的 do-while 版 本 的 代码 。 条 件 跳 转 会 使 得 程序 循环 
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逆向 工程 像 图 3-19c 中 那样 的 汇编 代码 ， 需 要 确定 哪个 寄存 器 对 应 的 是 哪个 程序 值 。 本 
例 中 ， 这 个 对 应 关系 很 容易 确定 : 我 们 知道 n 在 寄存 器 $rdi 中 传递 给 函数 。 可 以 看 到 寄存 
器 srax 初始 化 为 1( 第 2 行 )。( 注 意 ,虽然 指令 的 目的 寄存 器 是 $eax， 它 实际 上 还 会 把 $rax 
的 高 4 字 节 设置 为 0.) 还 可 以 看 到 这 个 寄存 器 还 会 在 第 4 行 被 乘法 改变 值 。 此 外 ,srax 用 来 返 
回 函 数值 ， 所 以 通常 会 用 来 存放 需要 返回 的 程序 值 。 因 此 我 们 断定 好 ax 对 应 程序 值 result。 
BR 练习 题 3. 23 已 知 C 代码 如 下 : 


long dw_loop(long x) { 
long y = XxX*X; 


long *p = &x; 
long n = 2*x; 
do 
X += y; 
(*p)++; 
ne 
} while (n > 0); 
return x; 
了 
GCC 产生 的 汇编 代码 如 下 : 
long dw_loop(long x) 
x Initially in Wrai 
1 dw_loop: 
这 movdq %rdi, %rax 
3 movg WEdi, NECX 
4 imlg Xral, Wrex 
5 leaq (Xrdi,%rdi), %rdx 
6 oli2 
2 leaq 1(%rcx,%rax), hrax 
= 所 subq $1, %rdx 
9 testq %rdx, %rdx 
10 jg .L2 
拉 rep; ret 


A. 哪些 寄存 器 用 来 存放 程序 值 x、y 和 n? 
B. 编译 器 如 何 消除 对 指针 变量 p 和 表达 式 (*p)++ 隐 含 的 指针 间接 引用 的 需求 ? 
C. 对 汇编 代码 添加 一 些 注释 ， 描 述 程 序 的 操作 ， 类 似 于 图 3-19c 中 所 示 的 那样 。 


国 可 到 碧 工 程 御 蒜 

理解 产生 的 汇编 代码 与 原始 源 代 码 之 间 的 关系 ,关键 是 找到 程序 值 和 寄存 器 之 间 的 
映射 关系 。 对 于 图 3-19 的 循环 来 说 ， 这 个 任务 非常 简单 ， 但 是 对 于 更 复杂 的 程序 来 说 ， 
就 可 能 是 更 具 挑 战 性 的 任务 。C 语言 编译 器 常常 会 重组 计算 ， 因 此 有 些 C 代码 中 的 变量 
在 机 器 代码 中 没有 对 应 的 值 ; 而 有 时 ， 机 器 代码 中 又 会 引入 源 代 码 中 不 存在 的 新 值 。 此 
外 ， 编 译 器 还 常常 试图 将 多 个 程序 值 映 射 到 一 个 寄存 器 上 ， 来 最 小 化 寄存 器 的 使 用 率 。 

我 们 描述 fact do 的 过 程 对 于 送 向 工程 循环 来 说 ， 是 一 个 通用 的 策略 。 看 看 在 循 
环 之 前 如 何 初始 化 寄存 器 ， 在 循环 中 如 何 更 新 和 测试 寄存 器 ， 以 及 在 循环 之 后 又 如 何 使 
用 寄存 器 。 这 些 步 骤 中 的 每 一 步 都 提供 了 一 个 线索 ， 组 合 起 来 就 可 以 解 开 谜团 。 做 好 准 





备 ， 你 会 看 到 令 人 惊奇 的 变换 ， 其 中 有 些 情 况 很 明显 是 编译 器 能 够 优化 代码 ， 而 有 些 情 
况 很 难 解释 编译 器 为 什么 要 选用 那些 奇怪 的 策略 。 根据 我 们 的 经 验 ，GCC 常常 做 的 一 
些 变换 ， 非 但 不 能 带 来 性 能 好 处 ， 反 而 甚至 可 能 降低 代码 性 能 。 


2. while 循环 

while 语句 的 通用 形式 如 下 : 

while (test-expr) 

body-statement 
与 do-while 的 不 同 之 处 在 于 ， 在 第 一 次 执行 body-statement 之 前 ， 它 会 对 test-expr 求 
值 ， 循 环 有 可 能 就 中 止 了 。 有 很 多 种 方法 将 while 循环 翻译 成 机 器 代码 ，GCC 在 代码 生 
成 中 使 用 其 中 的 两 种 方法 。 这 两 种 方法 使 用 同样 的 循环 结构 ， 与 do-while 一 样 ， 不 过 它 
们 实现 初始 测试 的 方法 不 同 。 

第 一 种 翻译 方法 ， 我 们 称 之 为 跳 转 到 中 间 (jump to middle)， 它 执行 一 个 无 条 件 跳 转 
跳 到 循环 结尾 处 的 测试 ， 以 此 来 执行 初始 的 测试 。 可 以 用 以 下 模板 来 表达 这 种 方法 ， 这 个 
模板 把 通用 的 while 循环 格式 翻译 到 goto 代码 ， 

goto test 
loop: 
body-statement 
test: 
t = test-expr; 
if (t) 
goto loop; 

作为 一 个 示例 ， 图 3-20a 给 出 了 使 用 while 循环 的 阶乘 函数 的 实现 。 这 个 函数 能 够 正 
确 地 计算 0! 二 1。 它 旁边 的 函数 fact while jm goto( 图 3-20b) 是 GCC 带 优化 命令 行 选 
项 -Og 时 产生 的 汇编 代码 的 C 语 言 翻 译 。 比 较 fact while( 图 3-20b) 和 fact do( 图 3-19b) 
的 代码 ， 可 以 看 到 它们 非常 相似 ,区别 仅 在 于 循环 前 的 goto test 语句 使 得 程序 在 修改 
result 或 n 的 值 之 前 ， 先 执行 对 n 的 测试 。 图 的 最 下 面 ( 图 3-20c) 给 出 的 是 实际 产生 的 汇 
编 代 码 。 

ES 练习 题 3. 24 对 于 如 下 C 代码 ; 


long loop_while(long a, long b) 


b 
long result = _ 
while (  ){ 
TeSULt = -ee 
nd 
} 
return result; 
} 


以 命令 行 选项 -0g 运行 GCC 产生 如 下 代码 : 


long loop_while(long a, long b) 
a jn Wadi, bb dn Wy 

1 loop_while: 

movl $1, %eax 

3 jmp “L2 
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4 .L3: 

leaq (%rdi,%rsi), %rdx 
6 imulq %rdx, %rax 

addq $1, %rdi 

8 sl 

9 cmpq YXrsi，%rdi 

10 jl .L3 

11 rep; ret 


可 以 看 到 编译 器 使 用 了 跳 转 到 中 间 的 翻译 方法 ， 在 第 3 行 用 jmp 跳 转 到 以 标号 
.L2 开 始 的 测试 。 填 写 C 代码 中 缺失 的 部 分 。 


一 
long fact_while(long n) 
{ 
long result = 1; 
while (n > 1) + 
result *= n; 
mn 
} 


return result; 








a ) C 代 码 


un Tn WE 
fact_while: 
movl $1, %eax 
jmp .L5 
.L6: 
imulq  %rdi, %rax 
Subq $1, %rdi 
‘Lb: 
cmpq $1, %rdi 
jg .L6 
rep; ret 











long fact_while(long n) 





long fact_while_jm_goto(long n) 
{ 
long result = 1; 
goto test; 
loop: 
result *= n; 
n= 1n-1; 
test: 
i Cn > 分 
goto loop; 
return result; 





b ) 等 价 的 goto 版 本 


Set result = 1 
Goto test 
loop: 
Compute result *= 1 
Decrement n 
test: 
Compare n:1 
It 2: go0to loop 


Return 








c ) 对 应 的 汇编 代码 


图 3-20 使 用 跳 转 到 中 间 翻 译 方法 的 阶乘 算法 的 while 版 本 的 C 代码 和 汇编 代码 。 
C 函数 fact_while jm goto 说 明了 汇编 代码 版 本 的 操作 
第 二 种 翻译 方法 ， 我 们 称 之 为 guarded-do， 首 先 用 条 件 分 支 ， 如 果 初 始 条 件 不 成 立 就 
跳 过 循环 ， 把 代码 变换 为 do-while 循环 。 当 使 用 较 高 优化 等 级 编译 时 ， 例 如 使 用 命令 行 
选项 -01，GCC 会 采用 这 种 策略 。 可 以 用 如 下 模板 来 表达 这 种 方法 ， 把 通用 的 while 循环 





格式 翻译 成 do-while 循环 : 
t = test-expr; 
if (!t) 
goto done ; 
do 
body-statement 
while (test-expr); 
done: 


相应 地 ， 还 可 以 把 它 翻 译 成 goto 代码 如 下 : 


t = test-expr; 
if (!t) 
goto done; 
loop: 
body-statement 
t = test-expr; 
这 《6 
goto loop; 

done : 
利用 这 种 实现 策略 ， 编 译 器 常常 可 以 优化 初始 的 测试 ， 例 如 认为 测试 条 件 总 是 满足 。 

再 来 看 个 例子 ， 图 3-21 给 出 了 图 3-20 所 示 阶 乘 函 数 同样 的 C 代码 ， 不 过 给 出 的 是 
GCC 使 用 命令 行 选 项 -ol 时 的 编译 。 图 3-21c 给 出 实际 生成 的 汇编 代码 ， 图 3-21b 是 这 个 
汇编 代码 更 易 读 的 C 语言 表示 。 根 据 goto 代码 ， 可 以 看 到 如 果 对 于 ”的 初始 值 有 ” 委 1， 
那么 将 跳 过 该 循环 。 该 循环 本 身 的 基本 结构 与 该 函数 do-while 版 本 产生 的 结构 (图 3-19) 
一 样 。 不 过 ， 一 个 有 趣 的 特性 是 ， 循 环 测试 (汇编 代码 的 第 9 行 ) 从 原始 C 代码 的 n 二 1 变 
成 了 ”天 1。 编 译 器 知道 只 有 当 z>]1 时 才 会 进入 循环 ， 所 以 将 n 减 1 意味 着 nn 二 1 或 者 n= 
1。 因 此 ， 测 试 n 关 1 就 等 价 于 测试 n<1。 






long fact_while._gd_goto(long n) 


long fact_while(long n) 






长 









long result = 1; 

while (n > 1) { 
result *= n; 
n= n-1; 

} 


return result; 








a ) C 代 码 


{ 


long result = 1; 
if (n <= 1) 
goto done; 
loop: 
result *= n; 
n= n-1; 
if (n != 1) 
goto loop; 
done: 
return result; 


小 





b ) 等 价 的 goto 版 本 


图 3-21 使 用 guarded-do 翻译 方法 的 阶乘 算法 的 while 版 本 的 C 代码 和 汇编 代码 。 
函数 fact while _gd _ goto 说 明了 汇编 代码 版 本 的 操作 























了 ong fact_while(long n) 
nin Weai 
1 fact_while: 
2 cmpq $1, %rdi Compare n:1 
3 jle aL? If <=, goto done 
办 movl $1, Weax Set result = 1 
5 6 loop: 
6 imulq %rdi, %rax Compute result *= 1 
subq $1 Wrai Decrement n 
8 cmpq $1, %rdi Compare n:1 
9 jne »L6 If !=, goto loop 
10 rep; ret Return 
11 本 done: 
12 movl $1, %eax Compute result = 1 
13 ret Return 
c) 对 应 的 汇编 代码 
图 3-21 ( 续 ) 


和 练习 题 3. 25 ”对 于 如 下 C 代码: 


long loop_while2(long a, long b) 
{ 


longs TESULt 三 cs} 


while ( Wh 
TOBY. B sss = 
Bs ; 

} 


return result; 


} 


以 命令 行 选项 -01 运行 GCC， 产 生 如 下 代码 : 


a in: Yrdi, b dn Wees 


1 loop_while2: 
色 testq  %hrsi, %rsi 
3 jle .L8 
4 movq %rsi, Whrax 
5 lat 
6 imulq  %rdi, %rax 
. subq %rdi, %rsi 
8 testq  ‘%rsi, %rsi 
9 jg Lf? 
I rep; ret 
11 .L8: 
12 movq Wrsi, Wrax 
13 ret 


可 以 看 到 编译 器 使 用 了 guarded-do 的 翻译 方法 ， 在 第 3 行使 用 了 jle 指令 使 得 当初 始 


测试 不 成 立时 ， 忽 略 循环 代码 。 填 写 缺 失 的 C 


代码 。 注 意 汇 编 语言 中 的 控制 结构 不 一 定 与 


根据 翻译 规则 直接 翻译 C 代码 得 到 的 完全 一 致 。 特 别 地 ， 它 有 两 个 不 同 的 ret 指令 (第 10 


行 和 第 13 行 )。 不 过 ， 你 可 以 根据 等 价 的 汇编 


代码 行为 填写 C 代码 中 缺失 的 部 分 。 








四 六 练习 题 3.26 函数 fun a 有 如 下 整体 结构 : 


long fun_a(unsigned long X) { 
long val = 0; 
while ( ... ) 1 


} 
return s,s} 


} 
GCC C 编译 器 产生 如 下 汇编 代码 : 


long fun_a(unsigned long x) 


二 Vi 
1 fun_a: 
2 movl $0, Weax 
3 jmp .L5 
4 .L6: 
E xorq %rdi, %rax 
6 shrq %rdi Shift right by 1 
7 .L5: 
8 testq  %rdi, %rdi 
9 jne . 工 6 
10 andl $1, Weax 
11 ret 


逆向 工程 这 段 代 码 的 操作 ， 然 后 完成 下 面 作 业 : 
A. 确定 这 段 代 码 使 用 的 循环 翻译 方法 。 
B. 根据 汇编 代码 版 本 填写 C 代码 中 缺失 的 部 分 。 
C. 用 自然 语言 描述 这 个 函数 是 计算 什么 的 。 
3. for 循环 
for 循环 的 通用 形式 如 下 : 
for (init-expr; test-expr; update-expr) 
body-statement 
C 语 言 标准 说 明 ( 有 一 个 例外 ， 练 习题 3.29 中 有 特别 说 明 )， 这 样 一 个 循环 的 行为 与 下 面 
这 段 使 用 while 循环 的 代码 的 行为 一 样 : 
init-expr; 
While (test-expr) { 
body-statement 
update-expr’; 
} 
程序 首先 对 初始 表达 式 initexpr 求 值 ， 然 后 进入 循环 ; 在 循环 中 它 先 对 测试 条 件 test 
zpr 求 值 ， 如 果 测 试 结果 为 “ 假 ” 就 会 退出 ， 否 则 执行 循环 体 body-statement; 最 后 对 
更 新 表达 式 update-expr 求 值 。 
GCC 为 for 循环 产生 的 代码 是 while 循环 的 两 种 翻译 之 一 ， 这 取决 于 优化 的 等 级 。 
也 就 是 ， 跳 转 到 中 间 策 略 会 得 到 如 下 goto 代码 : 
init-expr; 
goto test; 
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loop: 
body-statement 
update-expr; 
test: 
t = test-expr; 
if (t) 
goto loop; 


而 guarded-do 策略 得 到 : 


init-expr; 
t = test-expr; 
if (!t) 
goto done; 
loop: 
body-statement 
update-expr’; 
t = test-expr; 
if (t) 
goto loop; 
done: 


作为 一 个 示例 ， 考 虑 用 for 循环 写 的 阶乘 函数 


long fact_for(long n) 


{ 
long i; 
long result = 1; 
for (i = 2; i <= n; i++) 
result *= i; 
return result,; 
} 


如 上 述 代 码 所 示 ， 用 for 循环 编写 阶乘 函数 最 自然 的 方式 就 是 将 从 2 一 直到 的 因子 
乘 起 来 ， 因 此 ， 这 个 函数 与 我 们 使 用 while 或 者 do-while 循环 的 代码 很 不 一 样 。 
这 段 代 码 中 的 for 循环 的 不 同 组 成 部 分 如 下 : 


init-expr i=2 
test-expr i<=n 
update-expr i++ 
body-statement result *= i; 


用 这 些 部 分 替换 前 面 给 出 的 模板 中 相应 的 位 置 ， 就 把 for 循环 转换 成 了 while 循环 ， 
得 到 下 面 的 代码 : 


long fact_for_while(long n) 
{ 
long i = 2; 
long result = 1; 
while (i <= n) { 
result *= i; 
i++; 
了 


return result; 








对 while 循环 进行 跳 转 到 中 间 变 换 ， 得 到 如 下 goto 代码 : 
long fact_for_jm_goto(long n) 
{ 
long i = 2; 
long result = 1; 
goto test; 
loop: 
result *= i; 
Ts 
test: 
if (i <= n) 
goto loop; 
return result; 


} 
确实 ， 仔 细 查 看 使 用 命令 行 选项 -0g 的 GCC 产生 的 汇编 代码 ， 会 发 现 它 非常 接近 于 以 下 模板 : 


long fact_for(long n) 


n' dn ra 
fact_for: 
movl $1, Weax Set result = 1 
movl $2, %edx Set i=2 
jmp .L8 Goto test 
.L9: loop: 
imulq %rdx, %rax Compute result *= i 
addq $1, %rdx Increment i 
.1L8: test: 
cmpq %rdi, %rdx Compare i:n 
jle .L9 If <=, goto loop 
rep; ret Return 


有 人 练习 题 3. 27” 先 把 fact for 转换 成 while 循环 ， 再 进行 guarded-do 变换 ， 写 出 
fact for 的 goto 代码 。 
综 上 所 述 ，C 语言 中 三 种 形式 的 所 有 的 循环 一 一 do-while、while 和 for 一 一 都 可 以 
用 一 种 简单 的 策略 来 翻译 ， 产 生 包含 一 个 或 多 个 条 件 分 支 的 代码 。 控 制 的 条 件 转移 提供 了 
将 循环 翻译 成 机 器 代码 的 基本 机 制 。 
请 们 练习 题 3. 28 函数 fun b 有 如 下 整体 结构 : 


long fun_b(unsigned long x) { 
long val = 0; 
long i; 
for ( ens 3 a 刘 六 Ei 








} 


return val; 


; 
GCC C 编译 器 产生 如 下 汇编 代码 : 


long fun_b(unsigned long x) 


ra 
L fun_b: 
2 movl $64, %edx 
3 movl $0, Weax 
类 -Li10s 
3 movdq %rdi, %rcx 
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6 andl $1, %ecx 

2 addq Wrax, %rax 

8 orq %rcx, hrax 

9 shrq %rdi Shift right by 1 
10 subq $1, %rdx 

说 jne .L10 

12 rep; ret 


逆向 工程 这 段 代码 的 操作 ， 然 后 完成 下 面 的 工作 : 

A. 根据 汇编 代码 版 本 填写 C 代码 中 缺失 的 部 分 。 

B. 解释 循环 前 为 什么 没有 初始 测试 也 没有 初始 跳 转 到 循环 内 部 的 测试 部 分 。 
C. 用 自然 语言 描述 这 个 函数 是 计算 什么 的 。 

路 练习 题 3.29 在 C 语 言 中 执行 continue 语句 会 导致 程序 跳 到 当前 循环 迭代 的 结尾 。 
当 处 理 continue 语 名 时， 将 for 循环 翻译 成 while 循环 的 描述 规则 需要 一 些 改 进 。 
例如 ， 考 虑 下 面 的 代码 : 

/* Example of for loop containing a continue statement */ 
/* Sum even numbers between 0 and 9 */ 
long sum = 0; 
long i; 
for (i = 0; i < 10; i++) { 
if (i & 1) 
continue; 
sum += i; 
} 
A. 如 果 我 们 简单 地 直接 应 用 将 for 循环 翻译 到 while 循环 的 规则 ， 会 得 到 什么 呢 ? 
产生 的 代码 会 有 什么 错误 呢 ? 
B. 如 何 用 goto 语句 来 替代 continue 语句 ， 保 证 while 循环 的 行为 同 for 循环 的 行 
为 完全 一 样 ? 


3.6.8 switch 语句 


switch( 开 关 ) 语 句 可 以 根据 一 个 整数 索引 值 进行 多 重 分 支 (multiway branching) 。 在 
处 理 具 有 多 种 可 能 结果 的 测试 时 ， 这 种 语句 特别 有 用 。 它 们 不 仅 提高 了 C 代码 的 可 读 性 ， 
而 且 通 过 使 用 跳 转 表 (jump table) 这 种 数据 结构 使 得 实现 更 加 高 效 。 跳 转 表 是 一 个 数组 ， 
表 项 i 是 一 个 代码 段 的 地 址 ， 这 个 代码 段 实 现 当 开 关 索 引 值 等 于 i 时 程序 应 该 采取 的 动作 。 
程序 代码 用 开关 索引 值 来 执行 一 个 跳 转 表 内 的 数组 引用 ， 确 定 跳 转 指令 的 目标 。 和 使 用 一 
组 很 长 的 if-else 语句 相 比 ， 使 用 跳 转 表 的 优点 是 执行 开关 语句 的 时 间 与 开关 情况 的 数 
量 无 关 。GCC 根据 开关 情况 的 数量 和 开关 情况 值 的 稀 朴 程度 来 翻译 开关 语句 。 当 开关 情 
况 数量 比较 多 (例如 4 个 以 上 )， 并 且 值 的 范围 跨度 比较 小 时 ， 就 会 使 用 跳 转 表 。 

图 3-22a 是 一 个 C 语言 switch 语句 的 示例 。 这 个 例子 有 些 非常 有 意思 的 特征 ， 包 括 
情况 标号 (case label) 跨 过 一 个 不 连续 的 区 域 (对 于 情况 101 和 105 没有 标号 ) ， 有 些 情 况 有 
多 个 标号 (情况 104 和 106)， 而 有 些 情况 则 会 落 入 其 他 情况 之 中 (情况 102)， 因 为 对 应 该 
情况 的 代码 段 没 有 以 break 语句 结尾 。 : 

图 3-23 是 编译 switch_eg 时 产生 的 汇编 代码 。 这 段 代码 的 行为 用 C 语言 来 描述 就 
图 3-22b 中 的 过 程 switch_ eg impl。 这 段 代 码 使 用 了 GCC 提供 的 对 跳 转 表 的 支持 ， 这 


是 
是 
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对 C 语言 的 扩展 。 数 组 jt 包含 7 个 表 项 ， 每 个 都 是 一 个 代码 块 的 地 址 。 这 些 位 置 由 代码 
中 的 标号 定义 ， 在 jt 的 表 项 中 由 代码 指针 指明 ， 由 标号 加 上 “&& 前缀 组 成 。( 回 想 运 算 符 
& 创建 一 个 指向 数据 值 的 指针 。 在 做 这 个 扩展 时 ，GCC 的 作者 们 创造 了 一 个 新 的 运算 符 
&&， 这 个 运算 符 创建 一 个 指向 代码 位 置 的 指针 。) 建 议 你 研究 一 下 C 语言 过 程 switch eg_ 
impl， 以 及 它 与 汇编 代码 版 本 之 间 的 关系 。 







































1 void switch_eg._impl(long x, long D， 
2 long *dest) 
3 { 
4 /* Table of code pointers */ 
5 static void *jt[7] = { 
void switch_eg(long x, long n, 6 &&loc_A, &&loc_def, &&loc._B, 
long *dest) 7 &&loc_C, &&loc_D, &&loc_def, 
{ 8 &&loc_D 
long val = Xx; 9 }3 
10 unsigned long index = n - 100; 
switch (n) { 11 long val; 
和 
case 100: I if (index > 6) 
val *= 13; 14 goto loc_def; 
break; 15 /* Multiway branch */ 
16 goto *jt[index]; 
case 102: Iz 
val += 10; 18 loc_A: /* Case 100 */ 
/* Fall through */ 19 val = XxX * 13; 
20 goto done; 
case 103: 21 loc_B: /* Case 102 */ 
val += 11; 22 ww 10 
break; 23 /* Fall through */ 
24 locC: /* Case 103 */ 
case 104: 25 val = x + TI 
case 106: 26 goto done; 
Val *= val; 27 Tow DD /* Cases 104, 106 */ 
break; 28 Val = XxX * XX; 
29 goto done; 
default: 30 loc_def: /* Default case */ 
val = 0; 到 val = 0; 
} 32 done: 
*dest = val; 33 *dest = val; 





a ) switch 语 句 b ) 翻译 到 扩展 的 C 语 言 


图 3-22 ”switch 语句 示例 以 及 翻译 到 扩展 的 C 语言 。 该 翻译 给 出 了 跳 转 表 jt 的 结构 ， 
以 及 如 何 访问 它 。 作 为 对 C 语言 的 扩展 ，GCC 支持 这 样 的 表 


原始 的 C 代码 有 针对 值 100、102-104 和 106 的 情况 ,但 是 开关 变量 n 可 以 是 任意 整数 。 编 
译 器 首先 将 n 减 去 100， 把 取 值 范围 移 到 0 和 6 之 间 ， 创建 一 个 新 的 程序 变量 ， 在 我 们 的 C 版 
本 中 称 为 index。 补 码 表示 的 负数 会 映射 成 无 符号 表示 的 大 正 数 ， 利 用 这 一 事实 ,将 index 看 
作 无 符号 值 ， 从 而 进一步 简化 了 分 支 的 可 能 性 。 因 此 可 以 通过 测试 index 是 否 大 于 6 来 判定 
index 是 否 在 0 一 6 的 范围 之 外 。 在 C 和 汇编 代码 中 ， 根 据 index 的 值 ， 有 五 个 不 同 的 跳 转 位 
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置 : loc_A( 在 汇编 代码 中 标识 为 .L3)，loc_B(.L5)，1loc_C(.L6)，1loc D(.L7) 和 loc gef 
(.L8)， 最 后 一 个 是 默认 的 目的 地 址 。 每 个 标号 都 标识 一 个 实现 某 个 情况 分 支 的 代码 块 。 在 C 


和 汇编 代码 中 ， 程 序 都 是 将 index 和 6 做 比较 ， 如 果 大 于 6 就 跳 转 到 默认 的 代码 处 。 











void switch_eg(long x, long n, long *dest) 

in Xrai, ni in Xrsi, dest in Xrdx 
1 switch_eg: 
2 subq $100，%rsi Compute index = n-100 
3 cmpq $6, %rsi Compare index:6 
4 ja .L8 Tf 3 oto Loc.def 
5 jmp *.L4(,%rsi,8) Goto *jt[index] 
6 . 工 3 : loc_h: 
7 leaq (rdi,%rdi,2), %rax 3*x 
8 leaq (%rdi,%rax,4), %rdi val = 13*x 
2 jmp .L2 Goto done 
10 aLDs Lo Bs 
11 addq $10, %rdi xX=XxX+10 
徐 .L6: Loc. GC: 
13 addq $11, %rdi val =x+11 
14 jmp .L2 Goto done 
15 “rs locuD: 
16 imulq  %rdi, %rdi 0 了 
LA jmp :2 Goto done 
18 :LL8: loc_def: 
得 mov]l $0, %edi var sO 
20 . 工 2 : done: 
21 movqd %rdi, (%rdx) *dest = val 
22 ret Return 


图 3-23 图 3-22 中 switch 语句 示例 的 汇编 代码 


执行 switch 语句 的 关键 步骤 是 通过 跳 转 表 来 访问 代码 位 置 。 在 C 代码 中 是 第 16 行 ， 
一 条 -goto 语句 引用 了 跳 转 表 jt。GCC 支持 计算 gotol(computed goto) ， 是 对 C 语言 的 扩 
展 。 在 我 们 的 汇编 代码 版 本 中 ， 类 似 的 操作 是 在 第 5 行 ，jmp 指令 的 操作 数 有 前 级 '*’， 
表明 这 是 一 个 间接 跳 转 ， 操 作 数 指定 一 个 内 存 位 置 ， 索 引 由 寄存 器 srsi 给 出 ， 这 个 寄存 
器 保存 着 index 的 值 。( 我 们 会 在 3. 8 节 中 看 到 如 何 将 数组 引用 翻译 成 机 器 代码 。) 

C 代码 将 跳 转 表 声 明 为 一 个 有 7 个 元 素 的 数组 ， 每 个 元 素 都 是 一 个 指向 代码 位 置 的 指 
针 。 这 些 元 素 跨越 index 的 值 0 一 6， 对 应 于 n 的 值 100 一 106。 可 以 观察 到 ， 跳 转 表 对 重 
复 情 况 的 处 理 就 是 简单 地 对 表 项 4 和 6 用 同样 的 代码 标号 (loc_D) ， 而 对 于 缺失 的 情况 的 
处 理 就 是 对 表 项 1 和 5 使 用 默认 情况 的 标号 (loc def)。 

在 汇编 代码 中 ， 跳 转 表 用 以 下 声明 表示 ， 我 们 添加 了 一 些 注释 : 


1 .Section .Todata 

2 .align 8 Align address to multiple of 8 
3 .L4: 

4 .quad . 工 3 Case 100: loc_A 

5 .quad .L8 Case 101: loc_def 

6 .quad .L5 Case 102: 1oc_B 

区 .quad .L6 Case 103: loc_C 

8 .quad -LE7 Case 104: 1oc_D 

9 .quad .L8 Case 105: loc_def 

10 .quad - 工 7 Case 106: loc_D 
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这 些 声 明 表 明 ， 在 叫做 “.rodata”( 只 读数 据 ，Read-Only Data) 的 目标 代码 文件 的 
段 中 ， 应 该 有 一 组 7 个 “四 ” 字 (8 个 字 节 )， 每 个 字 的 值 都 是 与 指定 的 汇编 代码 标号 ( 例 
如 .L3) 相 关联 的 指令 地 址 。 标 号 .14 标记 出 这 个 分 配 地 址 的 起 始 。 与 这 个 标号 相对 应 的 地 
址 会 作为 间接 跳 转 (第 5 行 ) 的 基地 址 。 

不 同 的 代码 块 (C 标 号 loc A 到 loc D 和 loc def) 实 现 了 switch 语句 的 不 同 分 支 。 它 
们 中 的 大 多 数 只 是 简单 地 计算 了 val 的 值 ， 然 后 跳 转 到 函数 的 结尾 。 类 似 地 ， 汇 编 代 码 块 计 
算 了 寄存 器 srdi 的 值 ， 并 且 跳 转 到 水 数 结尾 处 由 标号 .12 指示 的 位 置 。 只 有 情况 标号 102 的 
代码 不 是 这 种 模式 的 ， 正 好 说 明 在 原始 C 代码 中 情况 102 会 落 到 情况 103 中 。 具 体 处 理 如 下 : 
以 标号 .15 起 始 的 汇编 代码 块 中 ， 在 块 结尾 处 没有 jmp 指令 ， 这 样 代码 就 会 继续 执行 下 一 个 块 。 
类 似 地 ，C 版 本 switch eg impl 中 以 标号 loc B 起 始 的 块 的 结尾 处 也 没有 goto 语句 。 . 

检查 所 有 这 些 代码 需要 很 仔细 的 研究 ， 但 是 关键 是 领会 使 用 跳 转 表 是 一 种 非常 有 效 的 
实现 多 重 分 支 的 方法 。 在 我 们 的 例子 中 ， 程 序 可 以 只 用 一 次 跳 转 表 引用 就 分 支 到 5 个 不 同 
的 位 置 。 甚 至 当 switch 语句 有 上 百 种 情况 的 时 候 ， 也 可 以 只 用 一 次 跳 转 表 访 问 去 处 理 。 
攻 练习 题 3.30 ”下面 的 C 函数 省 略 了 switch 语句 的 主体 。 在 C 代码 中 ， 情 况 标号 是 不 

连续 的 ， 而 有 些 情况 有 多 个 标号 。 

void switch2(long x, long *dest) { 

long val = 0; 
switch (x) 攻 


Body of switch statement omitted 


} 
*dest = val; 
} 
在 编译 该 函数 时 ，GCC 为 程序 的 初始 部 分 生成 了 以 下 汇编 代码 ， 变 量 x 在 寄存 器 %rdi 中 : 


void switch2(Iong x, long *dest) 


hn Wrdz 
1 switch2: 
addq $1, %rdi 
3 cmpq $8, %rdi 
和 4 ja .12 
5 jmp *.L4(,%rdi ,8) 
为 跳 转 表 生 成 以 下 代码 : 
1 .L4: 
.quad L9 
3 .quad .L5 
4 .quad .L6 
入 .quad . 工 7 
6 .quad . 工 2 
.quad :L7 
8 .quad  .L8 
3 .quad .L2 
10 .quad .L5 


根据 上 述 信息 回答 下 列 问 题 : 
A. switch 语句 内 情况 标号 的 值 分 别 是 多 少 ? 
B.C 代码 中 哪些 情况 有 多 个 标号 ? 
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BS 练习 题 3.31 对 于 一 个 通用 结构 的 C 函数 switcher: 


void switcher(long a, long b, long c¢, long *dest) 
{ 

long val; 

switch(a) { 


case /* Case A */ 


G I 
/* Fall through */ 
case |: /* Case B */ 


/* Case C */ 
GAGE ss /* Case D */ 


case Se /* Case E */ 


break; 
default: 

val = | 
上. 
*dest = val; 


} 
GCC 产生 如 图 3-24 所 示 的 汇编 代码 和 跳 转 表 。 








void switcher(long a, long b, long c, long *dest) 
a dn Mai b la Xsi; Win Nidr, dast i WE 

1 switcher: 

六 cmpq $7, %rdi 

3 ja .L2 

4 jmp *.L4(,%rdi ,8) 
区 .Section .rodata 

6 SE 

xorqg $15, %rsi 

8 movqg %rsi, %rdx 

9 .LL3: 

10 leaq 112(%rdx) , %rdi 

11 jmp .L6 

5 1 
13 leaq (%rdx,%rsi), %rdi 2 
14 salq $2, %rdi 3 
15 jmp -Ee 4 
We Lo 5 
福 movd %rsi, %rdi 9 
i Le: , 7 
19 movq %rdi，(%rcx) 8 
20 ret 9 








a ) 代码 b ) 跳 转 表 
图 3-24 ”练习 题 3. 31 的 汇编 代码 和 跳 转 表 


填写 C 代码 中 缺失 的 部 分 。 除 了 情况 标号 C 和 了 D 的 顺序 之 外 ， 将 不 同情 况 填 入 
这 个 模板 的 方式 是 唯一 的 。 





3 了 ,这 程 

过 程 是 软件 中 一 种 很 重要 的 抽象 。 它 提供 了 一 种 封装 代码 的 方式 ， 用 一 组 指定 的 参数 和 一 个 可 
选 的 返回 值 实现 了 某 种 功能 。 然 后 ， 可 以 在 程序 中 不 同 的 地 方 调用 这 个 函数 。 设 计 良 好 的 软件 用 过 程 
作为 抽象 机 制 ， 隐 藏 某 个 行为 的 具体 实现 ， 同 时 又 提供 清晰 简洁 的 接口 定义 ， 说 明 要 计算 的 是 哪些 
值 ， 过 程 会 对 程序 状态 产生 什么 样 的 影响 。 不 同 编程 语言 中 ， 过 程 的 形式 多 样 ; 函数 (function) 、 方 
法 (method) 、 子 例 程 (subroutine) 、 处 理 范 数 (handler) 等 等 ， 但 是 它们 有 一 些 共有 的 特性 。 

要 提供 对 过 程 的 机 器 级 支持 ， 必 须要 处 理 许 多 不 同 的 属性 。 为 了 讨论 方便 ， 假 设 过 程 
P 调用 过 程 Q，@ 执行 后 返回 到 P。 这 些 动作 包括 下 面 一 个 或 多 个 机 制 : 

传递 控制 。 在 进入 过 程 Q 的 时 候 ， 程 序 计数 器 必须 被 设置 为 Q 的 代码 的 起 始 地 址 ， 然 
后 在 返回 时 ， 要 把 程序 计数 器 设置 为 P 中 调用 Q 后 面 那 条 指令 的 地 址 。 

传递 数据 。P 必须 能 够 向 Q 提供 一 个 或 多 个 参数 ，@ 必须 能 够 向 PP 返回 一 个 值 。 

分 配 和 释放 内 存 。 在 开始 时 ，Q 可 能 需要 为 局 部 变量 分 配 空间 ， 而 在 返回 前 ， 又 必须 
释放 这 些 存 储 空间 。 

x86-64 的 过 程 实现 包括 一 组 特殊 的 指令 和 一 些 对 机 器 资源 (例如 寄存 器 和 程序 内 存 ) 使 
用 的 约定 规则 。 人 们 花 了 大 量 的 力气 来 尽量 减少 过 程 调 用 的 开销 。 所 以 ， 它 遵循 了 被 认为 
是 最 低 要 求 策 略 的 方法 ， 只 实现 上 述 机 制 中 每 个 过 程 所 必需 的 那些 。 接 下 来 ， 我 们 一 步 步 
地 构建 起 不 同 的 机 制 ， 先 描述 控制 ， 再 描述 数据 传递 ， 最 后 是 内 存 管理 。 


3.7. 1 运行 时 栈 
C 语 言 过 程 调 用 机 制 的 一 个 关键 特性 (大 多 数 


其 他 语言 也 是 如 此 ) 在 于 使 用 了 栈 数据 结构 提供 的 
后 进 先 出 的 内 存 管理 原则 。 在 过 程 调用 过 程 8 





栈 底 








的 例子 中 ， 可 以 看 到 当 @ 在 执行 时 ，P 以 及 所 有 较 早 的 由 
在 向 上 追溯 到 P 的 调用 链 中 的 过 程 ， 都 是 暂时 被 
挂 起 的 。 当 @ 运行 时 ， 它 只 需要 为 局 部 变量 分 配 | 
新 的 存储 空间 ， 或 者 设置 到 另 一 个 过 程 的 调用 。 
另 一 方面 ， 当 0 返回 时 ， 任 何 它 所 分 配 的 局 部 存 增 和 
储 空间 都 可 以 被 释放 。 因 此 ， 程 序 可 以 用 栈 来 管 Eee 调用 函数 
理 它 的 过 程 所 需要 的 存储 空间 ， 栈 和 程序 寄存 器 本 
存放 着 传递 控制 和 数据 、 分 配 内 存 所 需要 的 信息 。 
当 P 调 用 Q 时 ， 控 制 和 数据 信息 添加 到 栈 尾 。 当 P | 返回 地 址 | 
返回 时 ， 这 些 信息 会 释放 掉 。 

如 3.4.4 节 中 讲 过 的 ，x86-64 的 栈 向 低地 被 保存 的 寄存 器 
址 方向 增长 ， 而 栈 指 针 grsp 指向 栈 顶 元 素 。 可 正在 执行 的 
以 用 pushq 和 popq 指令 将 数据 存 人 栈 中 或 是 局 部 变量 函数 Q 的 帧 
从 栈 中 取出 。 将 栈 指 针 减 小 一 个 适当 的 量 可 以 
为 没有 指定 初始 值 的 数据 在 栈 上 分 配 空间 。 类 栈 指针 参数 构造 区 
似 地 ， 可 以 通过 增加 栈 指针 来 释放 空间 。 ET 

当 x86-64 过 程 需要 的 存储 空间 超出 寄存 器 图 3-25 通用 的 栈 帧 结构 ( 栈 用 来 传递 参数 、 存 
能 够 存放 的 大 小 时 ， 就 会 在 栈 上 分 配 空间 。 这 储 返回 信息 、 保 存 寄存 器 ， 以 及 局 部 


个 部 分 称 为 过 程 的 栈 帧 (stack fram)。 图 3-25 存储 。 省 略 了 不 必要 的 部 分 ) 
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给 出 了 运行 时 栈 的 通用 结构 ， 包 括 把 它 划分 为 栈 帧 。 当 前 正在 执行 的 过 程 的 帧 总 是 在 栈 
顶 。 当 过 程 P 调用 过 程 Q 时 ， 会 把 返回 地 址 压 人 栈 中 ， 指 明 当 Q@ 返 回 时 ， 要 从 ?程序 的 哪 
个 位 置 继 续 执行 。 我 们 把 这 个 返回 地 址 当做 P 的 栈 帧 的 一 部 分 ， 因 为 它 存 放 的 是 与 P 相 关 
的 状态 。Q 的 代码 会 扩展 当前 栈 的 边界 ， 分 配 它 的 栈 帧 所 需 的 空间 。 在 这 个 空间 中 ， 它 可 
以 保存 寄存 器 的 值 ， 分 配 局 部 变量 空间 ， 为 它 调用 的 过 程 设 置 参数 。 大 多 数 过 程 的 栈 帧 都 
是 定 长 的 ， 在 过 程 的 开始 就 分 配 好 了 。 但 是 有 些 过 程 需要 变 长 的 帧 ， 这 个 问题 会 在 3. 10. 5 
节 中 讨论 。 通 过 寄存 器 ， 过 程 P 可 以 传递 最 多 6 个 整数 值 (也 就 是 指针 和 整数 )， 但 是 如 果 
Q 需 要 更 多 的 参数 ，P 可 以 在 调用 @ 之 前 在 自己 的 栈 帧 里 存储 好 这 些 参数 。 

为 了 提高 空间 和 时 间 效 率 ，x86-64 过 程 只 分 配 自己 所 需要 的 栈 帧 部 分 。 例 如 ， 许 多 过 
程 有 6 个 或 者 更 少 的 参数 ， 那 么 所 有 的 参数 都 可 以 通过 寄存 器 传递 。 因 此 ， 图 3-25 中 画 
出 的 某 些 栈 帧 部 分 可 以 省 略 。 实 际 上 ， 许 多 函数 甚至 根本 不 需要 栈 帧 。 当 所 有 的 局 部 变量 
都 可 以 保存 在 寄存 器 中 ， 而 且 该 函数 不 会 调用 任何 其 他 函数 (有 时 称 之 为 叶子 过 程 ， 此 时 
把 过 程 调用 看 做 树 结构 ) 时 ， 就 可 以 这 样 处 理 。 例 如 ， 到 目前 为 止 我 们 仔细 审视 过 的 所 有 
函数 都 不 需要 栈 帧 。 


3.7.2 转移 控制 


将 控制 从 函数 转移 到 函数 Q 只 需要 简单 地 把 程序 计数 器 (PC) 设 置 为 的 代码 的 起 始 位 
置 。 不 过 ， 当 稍 后 从 Q 返回 的 时 候 ， 处 理 器 必须 记录 好 它 需 要 继续 P 的 执行 的 代码 位 置 。 在 
x86-64 机 器 中 ， 这 个 信息 是 用 指令 call 8 调用 过 程 Q 来 记录 的 。 该 指令 会 把 地 址 A 压 入 栈 
中 ， 并 将 PC 设置 为 的 起 始 地 址 。 压 人 的 地 址 A 被 称 为 返回 地 址 ， 是 紧 跟 在 call 指令 后 
面 的 那 条 指令 的 地 址 。 对 应 的 指令 ret 会 从 栈 中 弹出 地 址 A， 并 把 PC 设置 为 A。 

下 表 给 出 的 是 call 和 ret 指令 的 一 般 形 式 : 





Label 过 程 调用 


*Operand 过 程 调用 
从 过 程 调 用 中 返回 








(这 些 指 令 在 程序 OBJDUMP 产生 的 反 汇 编 输出 中 被 称 为 callq 和 retq。 添 加 的 后 级 “q” 
只 是 为 了 强调 这 些 是 x86-64 版 本 的 调用 和 返回 ， 而 不 是 IA32 的 。 在 x86-64 汇编 代码 中 ， 
这 两 种 版 本 可 以 互 换 。) 
， call 指令 有 一 个 目标 ， 即 指明 被 调用 过 程 起 始 的 指令 地 址 。 同 跳 转 一 样 ， 调 用 可 以 
是 直接 的 ， 也 可 以 是 间接 的 。 在 汇编 代码 中 ， 直 接 调用 的 目标 是 一 个 标号 ， 而 间接 调用 的 
目标 是 * 后 面 跟 一 个 操作 数 指示 符 ， 使 用 的 是 图 3-3 中 描述 的 格式 之 一 。 

图 3-26 说 明了 3. 2. 2 节 中 介绍 的 multstore 和 main 函数 的 call 和 ret 指令 的 执行 
情况 。 下 面 是 这 两 个 函数 的 反 汇 编 代 码 的 节选 : 

Beginning of function multstore 
1 0000000000400540 <multstore>: 


2 400540: 53 push  %rbx 
3 400541: 48 89 d3 mov %rdx,%rbx 


Return from function multstore 


4 40054d: c3 retq 





Call to multstore from main 
5 400563: ee8 d8 ff ff ff callg 400540 <multstore> 
6 400568: 48 8b 54 24 08 moVv Ox8(%rsp) ,%rdx 


在 这 段 代码 中 我 们 可 以 看 到 ， 在 main 函数 中 ， 地 址 为 0x400563 的 call 指令 调用 也 
数 multstore。 此 时 的 状态 如 图 3-26a 所 示 ， 指 明了 栈 指针 grsp 和 程序 计数 器 %$rip 的 值 。 
call 的 效果 是 将 返回 地 址 0x400568 压 人 栈 中 ,并 跳 到 函数 multstore 的 第 一 条 指令 ,地 
址 为 0x0400540( 图 3-26b) 。 函 数 multstore 继续 执行 ， 直 到 遇 到 地 址 0x40054d 处 的 
ret 指令 。 这 条 指令 从 栈 中 弹出 值 0x400568， 然 后 跳 转 到 这 个 地 址 ， 就 在 call 指令 之 
后 ， 继 续 main 函数 的 执行 。 


0x400563 0x400540 0x400568 
| szspl0x7fffffffe840 Ox7fffffffe838 Ox7fffffffe840 


0x400568 


a ) 执行 call b ) call 执 行 之 后 c ) ret 执 行 之 后 


图 3-26 ”call 和 ret 函数 的 说 明 。call 指令 将 控制 转移 到 一 个 函数 的 起 始 ， 
而 ret 指令 返回 到 这 次 调用 后 面 的 那 条 指令 


再 来 看 一 个 更 详细 说 明 在 过 程 间 传递 控制 的 例子 ， 图 3-27a 给 出 了 两 个 函数 top 和 leaf 
的 反 汇 编 代码 ， 以 及 main 函数 中 调用 top 处 的 代码 。 每 条 指令 都 以 标号 标 出 : LI 一 L2 
(leaf 中 )，T1l~T4(main 中 ) 和 M1~M2(main 中 )。 该 图 的 b 部 分 给 出 了 这 段 代 码 执 
















Disassembly of leaf (long y) 
y in Yrdi 
1 0000000000400540 <leaf>: 
2 400540: 48 8d 47 02 lea Ox2(%rdi),%rax Li1: y+2 
和 400544: c3 retq L2: Return 


4 "0000000000400545 <top>: 
Disassembly of top(long x) 


ww 2 wrdi 
5 400545: 48 83 ef 05 sub $Ox5,%rdi T1: x-5 
6 400549: e8 f2 ff ff ff callq 400540 <leaf> 72: Call leaf (x-5) 
区 40054e: 48 01 c0 add %rax, hrax T3: Double result 
8 400551: c3 retq T4: Return 


Call to top from function main 
9 40055b: e8 e5 ff ff ff callq 400545 <top> M1: Call top(100) 
10 400560: 48 89 c2 mov %rax,%rdx M2: Resume 











a ) 说 明 过 程 调用 和 返回 的 反 汇编 代码 


图 3-27 包含 过 程 调用 和 返回 的 程序 的 执行 细节 。 使 用 栈 来 存储 返回 地 址 
使 得 能 够 返回 到 过 程 中 正确 的 位 置 
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指令 状态 值 (指令 执行 前 ) 描述 
标号 PC 指令 Srdi Srax Srsp *SErSp 
| 
MIl 0x40055b callqg 100 一 Ox7fffffffe820 = 调用 top (100) 
Tl 0x400555 sub 100 一 0x7fffffffe818 0x400560 | 进入 top 
T2 0x400559 callqg 95 一 0x7fffffffe818 0x400560 | 调用 leaf (95) 
Ll 0x400540 lea 95 = Ox7fffffffe810 0x40054e 进入 leaf 
L2 0x400544 retq 一 97 0x7fffffffe810 0x40054e | 从 leaf 返 回 97 
T3 0x40054e add 一 97 0x7fffffffe818 0x400560 | 继续 top 
T4 0x400551 retq 一 194 0x7fffffffe818 0x400560 | 从 top 返 回 194 
M2 0x400560 mov 一 194 0x7fffffffe820 = 继续 main 

b ) 示例 代码 的 执行 过 程 
图 3-27 ( 续 ) 


行 的 详细 过 程 ，main 调用 top (100) ， 然 后 top 调用 leaf (95) 。 函 数 leaf 向 top 返回 
97， 然 后 top 向 main 返回 194。 前 面 三 列 描述 了 被 执行 的 指令 ， 包 括 指令 标号 、 地 址 和 
指令 类 型 。 后 面 四 列 给 出 了 在 该 指令 执行 前 程序 的 状态 ， 包括 寄存 器 $rdi、%rax 和 %rsp 
的 内 容 ， 以 及 位 于 栈 顶 的 值 。 仔 细 研 究 这 张 表 的 内 容 ， 它 们 说 明了 运行 时 栈 在 管理 支持 过 
程 调用 和 返回 所 需 的 存储 空间 中 的 重要 作用 。 

leaf 的 指令 L1 将 srax 设置 为 97， 也 就 是 要 返回 的 值 。 然 后 指令 L2 返回 ， 它 从 栈 中 
弹出 0x400054e。 通 过 将 PC 设置 为 这 个 弹出 的 值 ， 控 制 转移 回 top 的 T3 指令 。 程 序 成 功 
完成 对 leaf 的 调用 ， 返 回 到 top。 

指令 T3 将 srax 设置 为 194， 也 就 是 要 从 top 返回 的 值 。 然 后 指令 T4 返回 ， 它 从 栈 中 
弹出 0x4000560， 因 此 将 PC 设置 为 main 的 M2 指令 。 程 序 成 功 完 成 对 top 的 调用 ， 返 回 
到 main。 可 以 看 到 ， 此 时 栈 指针 也 恢复 成 了 0x7fffffffe820， 即 调用 top 之 前 的 值 。 

可 以 看 到 ， 这 种 把 返回 地 址 压 人 栈 的 简单 的 机 制 能 够 让 函数 在 稍 后 返回 到 程序 中 正确 
的 点 。C 语言 (以 及 大 多 数 程序 语言 ) 标 准 的 调用 /返回 机 制 刚好 与 栈 提供 的 后 进 先 出 的 内 
存 管理 方法 吻合 。 
这 练习 题 3. 32 下面 列 出 的 是 两 个 函数 first 和 last 的 反 汇 编 代 码 ， 以 及 main 函数 

调用 first 的 代码 : 

Disassembly of last(long u, long v) 


i 1 WL Tn iy 


1 0000000000400540 <last>: 

2 400540: 48 89 f8 moV %rdi,%rax Ed 和 

3 400543: 48 0f af c6 imul Wrsi,%rax L2: ux*v 

4 400547: c3 retq L3: Return 
Disassembly of first(long x) 
x dn Wrdi 

5 0000000000400548 <first>: 

6 400548: 48 8d 77 01 lea Oxi(%rdi),%rsi Fi: x+1 

7 40054c: 48 83 ef 01 sub $Ox1,%rdi F2: x-1 

8 400550: e8 eb ff ff ff callq 400540 <last> F3: Call last(x-1,x+1) 





9 400555: f3 c3 repz retq F4: Return 


400560: 8 e3 ff ff ff 
400565: 48 89 c2 


10 
1 


callq 400548 <first> Mi: Call first(10) 
rax,%rdx M2: Resume 

每 条 指令 都 有 一 个 标号 ， 类 似 于 图 3-27a。 从 main 调用 first (10) 开 始 ， 到 程序 
返回 main 时 为 止 ， 填写 下 表 记 录 指令 执行 的 过 程 。 


mov 



























指令 状态 值 (指令 执行 前 ) 
标号 PC 指令 gsrdi grsi Srax gSrsp * gSrsp 下 描述 
MI1 0x400560 callqg 10 Ox7fffffffe820 = 调用 first(10) 
| E1 
上 2 
F3 








| 

































3.7.3 数据 传送 


当 调用 一 个 过 程 时 ， 除 了 要 把 控制 传递 给 它 并 在 过 程 返回 时 再 传递 回来 之 外 ， 过 程 调 
用 还 可 能 包括 把 数据 作为 参数 传递 ， 而 从 过 程 返回 还 有 可 能 包括 返回 一 个 值 。x86-64 中 ， 
大 部 分 过 程 间 的 数据 传送 是 通过 寄存 器 实现 的 。 例 如 ， 我 们 已 经 看 到 无 数 的 函数 示例 ， 参 
数 在 寄存 器 srdi、srsi 和 其 他 寄存 器 中 传递 。 当 过 程 P 调用 过 程 时 ，? 的 代码 必须 首先 
把 参数 复制 到 适当 的 寄存 器 中 。 类 似 地 ， 当 8 返回 到 PP 时, P 的 代码 可 以 访问 寄存 器 srax 
中 的 返回 值 。 在 本 节 中 ， 我 们 更 详细 地 探讨 这 些 规则 。 

x86-64 中 ， 可 以 通过 寄存 器 最 多 传递 6 个 整 型 (例如 整数 和 指针 ) 参 数 。 寄 存 器 的 使 用 
是 有 特殊 顺序 的 ， 寄 存 器 使 用 的 名 字 取 决 于 要 传递 的 数据 类 型 的 大 小 ， 如 图 3-28 所 示 。 
会 根据 参数 在 参数 列表 中 的 顺序 为 它们 分 配 寄 存 器 。 可 以 通过 64 位 寄存 器 适当 的 部 分 访 
问 小 于 64 位 的 参数 。 例 如 ， 如 果 第 一 个 参数 是 32 位 的 ， 那 么 可 以 用 sedi 来 访问 它 。 





























Ne 参数 数量 
操作 数 大 小 (位 ) | 
1 2 3 | 4 | 5 6 
64 Srdi Srsi Srdx Srcx | Sr8 %rg 
| 
32 Sedi Sesi Sedx Secx | sr8d Sr9d 
16 Ssi Sdx | Cx | Sr8w 





%di | 
Sdil | 


Ssil Sdl | 


和 Cl 


sr8b 





| Sr9w 





图 3-28 传递 函数 参数 的 寄存 器 。 寄 存 器 是 按照 特殊 顺序 来 使 用 的 ， 
而 使 用 的 名 字 是 根据 参数 的 大 小 来 确定 的 


如 果 一 个 函数 有 大 于 6 个 整 型 参数 ， 超 出 6 个 的 部 分 就 要 通过 栈 来 传递 。 假 设 过 程 
调用 过 程 Q， 有 并 个 整 型 参数 ， 且 交 盖 6。 那么 P 的 代码 分 配 的 栈 帧 必须 要 能 容纳 7 到 7 
号 参数 的 存储 空间 ， 如 图 3-25 所 示 。 要 把 参数 1~6 复制 到 对 应 的 寄存 器 ， 把 参数 7 一 放 
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到 栈 上 ， 而 参数 7 位 于 栈 项 。 通 过 栈 传 递 参数 时 ， 所 有 的 数据 大 小 都 向 8 的 倍数 对 齐 。 参 
数 到 位 以 后 ， 程 序 就 可 以 执行 call 指令 将 控制 转移 到 过 程 Q 了。 过 程 @ 可 以 通过 寄存 器 
访问 参数 ， 有 必要 的 话 也 可 以 通过 栈 访问 。 相 应 地 ， 如 果 Q 也 调用 了 某 个 有 超过 6 个 参数 
的 函数 ， 它 也 需要 在 自己 的 栈 帧 中 为 超出 6 个 部 分 的 参数 分 配 空间 ， 如 图 3-25 中 标号 为 
“参数 构造 区 ”的 区 域 所 示 。 

作为 参数 传递 的 示例 ， 考 虑 图 3-29a 所 示 的 C 函数 proc。 这 个 函数 有 8 个 参数 ， 包 括 
字 节 数 不 同 的 整数 (8、4、2 和 1) 和 不 同类 型 的 指针 ， 每 个 都 是 8 字 节 的 。 


void proc(long 
int 
short 
char 


*alp += al; 











*a2p += a2; 
*a3p += a3; 
*a4p += a4; 
a ) C 代 码 
void proc(al, alp, a2, a2p, a3, a3p, a4, a4p) 
Arguments passed as follows: 
al in Yrdi (64 bits) 
alp in Yrsi (64 bits) 
a2 in Yedx (59 Dita 
a2p in Yrcx (64 bits) 
a3 in Yr8w (16 bits) 
a3p in %r9 (64 bits) 
a4d at Yrsp+8 ( 8 bits) 
a4dp at Yrsp+16 (64 bits) 
1 proc: 
2 moVq 16(%rsp), %rax Fetch adp (64 bits) 
3 addq %rdi, (%rsi) *alp += al (64 bits) 
4 addl Wedx, (%rcx) *a2p += a2 (32 bits) 
5 addw %r8w, (%r9) *a3p += a3 (16 bits) 
6 movl 8(%rsp), hedx Fetch a4 ( 8 bits) 
7 addb %dl, (%rax) *#a4D += a4 ( 8 bits) 
8 ret Return 站 





b ) 生成 的 汇编 代码 
图 3-29 有 多 个 不 同类 型 参数 的 函数 示例 。 参 数 1 一 6 通过 寄存 器 传递 ， 而 参数 7 一 8 通过 栈 传递 


图 3-29b 中 给 出 proc 生成 的 汇编 代码 。 前 面 6 个 参数 通过 寄存 器 传递 ， 后 面 2 个 通 
过 栈 传递 ， 就 像 图 3-30 中 画 出 来 的 那样 。 可 以 看 到 ， 作 为 过 程 调用 的 一 部 分 ， 返回 地 址 
被 压 人 栈 中 。 因 而 这 两 个 参数 位 于 相对 于 栈 指针 距离 为 8 和 16 的 位 置 。 在 这 段 代 码 中 ， 
我 们 可 以 看 到 根据 操作 数 的 大 小 ， 使 用 了 ADD 指令 的 不 同 版 本 : al(1ong) 使 用 adqq， 
a2(int) 使 用 addl，a3(short) 使 用 addw， 而 a4(char) 使 用 addb。 请 注意 第 6 行 的 
movl 指令 从 内 存 读 入 4 字 节 ， 而 后 面 的 adqdb 指令 只 使 用 其 中 的 低位 一 字 节 。 








| 
aa 8 
返回 地 址 0 < 一 栈 指 针 %rsp 
图 3-30 ”函数 proc 的 栈 帧 结构 。 参 数 a4 和 a4p 通过 栈 传递 








世代 练习 题 3.33 C 函数 procprob 有 4 个 参数 u、a、vV 和 b， 每 个 参数 要 么 是 一 个 有 符 
号 数 ， 要 么 是 一 个 指向 有 符号 数 的 指针 ， 这 里 的 数 大 小 不 同 。 该 函数 的 函数 体 如 下 
*U += a; 

*V += b; 

return sizeof(a) + sizeof (b); 


编译 得 到 如 下 x86-64 代码 : ; 


1 procprob: 

2 movslq %edi, %rdi 
3 addq wrdis (Wrdxy) 
4 addb Wails (hrex) 
movl $6, heax 

6 ret 


确定 4 个 参数 的 合法 顺序 和 类 型 。 有 两 种 正确 答案 。 


3.7.4 栈 上 的 局 部 存储 


到 目前 为 止 我 们 看 到 的 大 多 数 过 程 示例 都 不 需要 超出 寄存 器 大 小 的 本 地 存储 区 域 。 不 
过 有 些 时 候 ， 局 部 数据 必须 存放 在 内 存 中 ， 常 见 的 情况 包括 : 

e 寄存 器 不 足够 存放 所 有 的 本 地 数据 。 

e 对 一 个 局 部 变量 使 用 地 址 运算 符 “&”， 因 此 必须 能 够 为 它 产生 一 个 地 址 。 

e 某 些 局 部 变量 是 数组 或 结构 ， 因 此 必须 能 够 通过 数组 或 结构 引用 被 访问 到 。 在 描述 

数组 和 结构 分 配 时 ， 我 们 会 讨论 这 个 问题 。 

一 般 来 说 ， 过 程 通过 减 小 栈 指针 在 栈 上 分 配 空间 。 分 配 的 结果 作为 栈 帧 的 一 部 分 ， 标 
号 为 “局 部 变量 ”， 如 图 3-25 所 示 。 

来 看 一 个 处 理 地 址 运算 符 的 例子 ， 图 3-31a 中 给 出 的 两 个 函数 。 函 数 swap_add 交换 
指针 xp 和 yp 指向 的 两 个 值 ， 并 返回 这 两 个 值 的 和 。 函 数 caller 创建 到 局 部 变量 arg1 
和 arg2 的 指针 ， 把 它们 传递 给 swap_ add。 图 3-31b 展示 了 caller 是 如 何 用 栈 帧 来 实现 
这 些 局 部 变量 的 。caller 的 代码 开始 的 时 候 把 栈 指针 减 掉 了 16; 实际 上 这 就 是 在 栈 上 分 
配 了 16 个 字 节 。S 表示 栈 指针 的 值 ， 可 以 看 到 这 段 代码 计算 garg2 为 S 十 8( 第 5 行 ), 而 
&argl 为 S。 因 此 可 以 推断 局 部 变量 argl 和 arg2 存放 在 栈 帧 中 相对 于 栈 指针 偏 移 量 为 0 
和 8 的 地 方 。 当 对 swap_add 的 调用 完成 后 ，caller 的 代码 会 从 栈 上 取出 这 两 个 值 ( 第 
8 一 9 行 )， 计 算 它 们 的 差 ， 再 乘 以 swap_add 在 寄存 器 srax 中 返回 的 值 (第 10 行 )。 最 后 ， 
该 函数 把 栈 指针 加 16， 释 放 栈 帧 (第 11 行 )。 通 过 这 个 例子 可 以 看 到 ， 运 行 时 栈 提供 了 一 
种 简单 的 、 在 需要 时 分 配 、 函 数 完成 时 释放 局 部 存储 的 机 制 。 

如 图 3-32 所 示 ， 函 数 call _ proc 是 一 个 更 复杂 的 例子 ， 说 明 x86-64 栈 行为 的 一 些 特 
性 。 尽 管 这 个 例子 有 点 儿 长 ， 但 还 是 值得 仔细 研究 。 它 给 出 了 一 个 必须 在 栈 上 分 配 局 部 变 
量 存储 空间 的 函数 ， 同 时 还 要 向 有 8 个 参数 的 范 数 proc 传递 值 ( 图 3-29) 。 该 函数 创建 一 
个 栈 帧 ， 如 图 3-33 所 示 。 
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long swap_add(long *xp, long *yp) 


long x = *xp; 
long y = *yp; 
*xp = y; 
*yp = xX; 
return x + y; 
} 
long caller() 
long argl = 534; 
long arg2 = 1057; 
long sum = 
return sum * diff; 
} 








swap_add(&argl, &arg2); 
long diff = argl - arg2; 








a ) swap_add 和 调用 函数 的 代码 





long caller() 





| 12 ret 


1 caller: 

六 Subq $16, %rsp 

3 movdq $534，(%rsPp) 
4 movq $1057, 8(%rsp) 
5 leaq 8(%rsp), %rsi 
6 movq %rsp, %rdi 
call swap_add 

8 movq (Xrsp), %rdx 
9 subq 8(%rsp), %rdx 
10 imulq  %rdx, %rax 

11 addq $16, %rsp 


Allocate 16 bytes for stack frame 
Store 534 in arg!l 

Store 1057 in arg2 

Compute garg2 as second argument 
Compute &argl as first argument 
Call swap_add(&arg!1l, &arg2) 

Get argl 

Compute diff = argl - arg2 
Compute sum * diff 

Deallocate stack frame 

Return 





b ) 调用 函数 生成 的 汇编 代码 
图 3-31 过程 定义 和 调用 的 示例 。 由 于 会 使 用 地 址 运算 符 ， 所 以 调用 代码 必须 分 配 一 个 栈 帧 





long call_proc() 
二 


long x1 = 1; int 
short x3 = 3; char x4 = 4; 

proc(x1i, &x1, x2, &x2, x3, &x3, XxX4, &x4); 
return (xl+x2)*(x3-x4); 


XZ = 








a ) swap_add 和 调用 函数 的 代码 
图 3-32 ”调用 在 图 3-29 中 定义 的 函数 proc 的 代码 示例 。 该 代码 创建 了 一 个 栈 帧 

















long call_proc() 

1 call_proc: 

Set up arguments to proc 
2 subq $32,%rsp Allocate 32-byte stack frame 
3 movg $1, 24(%rsp) Store 1 in gx1 
4 movl $2, 20(%rsp) Store 2 in &x2 
5 movw $3, 18(%rsp) Store 3 in gx3 
6 movb $4, 17(%rsp) Store 4 in &x4 
leaq 17(%rsp), %rax Create &x4 
8 movdq %rax, 8(%rsp) Store &x4 as argument 8 
有 movl $4, (%rsp) Store 4 as argument 7 
10 leaq 18(%rsp), %r9 Pass &x3 as argument 6 
Bl movl $3, %r8d Pass 3 as argument 5 
但 leaq 20(%rsp), %rcx Pass &x2 as argument 4 
13 movl $2,%edx Pass 2 as argument 3 
14 leaq 24(%rsp), %rsi Pass &x1 as argument 2 
15 movl $1, %edi Pass 1 as argument 1 

Call proc 
16 call proc 

Retrieve changes to memory 
本 movslq 20(%rsp), %rdx Get x2 and convert to long 
18 addq 24(%rsp), %rdx Compute XI1+X2 
19 movswl 18(%rsp), %eax Get x3 and convert to int 
20 movsbl 17(%rsp), Yecx Get x4 and convert to int 
21 subl Wecx, heax Compute x3-x4 
22 cltq Convert to long 








23 imulq  %rdx, %rax Compute (x1+x2) * (x3-x4) 
2 addq $32,%rsp Deallocate stack frame 
25 ret Return 
b ) 调用 函数 生成 的 汇编 代码 
图 3-32 ”( 续 ) 


看 看 call_proc 的 汇编 代码 (图 3-32b) ， 可 以 看 到 代码 中 一 大 部 分 (第 2 一 15 行 ) 是 为 调 
用 proc 做 准备 。 其 中 包括 为 局 部 变量 和 函数 参数 建立 栈 帧 ， 将 函数 参数 加 载 至 寄存 器 。 如 
图 3-33 所 示 ， 在 栈 上 分 配 局 部 变量 x1~x4， 它们 具有 不 同 的 大 小 : 24~~31(x1)，20~23 
(Cx2)，18 一 19(x3) 和 17(s3)。 用 leaq 指令 生成 到 这 些 位 置 的 指针 (第 7、10、12 和 14 行 )。 
参数 7( 值 为 4) 和 8( 指 向 x4 的 位 置 的 指针 ) 存 放 在 栈 中 相对 于 栈 指针 偏 移 量 为 0 和 8 的 地 方 。 

当 调 用 过 程 proc 时 ， 程 序 会 开始 执行 图 3-29b 中 的 代码 。 如 图 3-30 所 示 ， 参 数 7 和 
8 现在 位 于 相对 于 栈 指针 偏 移 量 为 8 和 16 的 
地 方 ， 因 为 返回 地 址 这 时 已 经 被 压 人 栈 中 了 。 

当 程 序 返 回 call proc 时 ， 代 码 会 取出 
4 个 局 部 变量 (第 17 一 20 行 )， 并 执行 最 终 的 
计算 。 在 程序 结束 前 ， 把 栈 指针 加 32， 释 放 
这 个 栈 帧 。 


3.7.5 寄存 器 中 的 局 部 存储 空间 
寄存 器 组 是 唯一 被 所 有 过 程 共享 的 资源 。 






| 


参数 7 
函数 call_proc 的 栈 帧 。 该 栈 帧 包含 局 部 
变量 和 两 个 要 传递 给 函数 proc 的 参数 


图 3-33 
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虽然 在 给 定时 刻 只 有 一 个 过 程 是 活动 的 ， 我们 仍然 必须 确保 当 一 个 过 程 ( 调 用 者 ) 调 用 男 一 
个 过 程 ( 被 调用 者 ) 时 ， 被 调用 者 不 会 覆盖 调用 者 稍 后 会 使 用 的 寄存 器 值 。 为 此 ，x86-64 采 
用 了 一 组 统一 的 寄存 器 使 用 惯例 ， 所 有 的 过 程 (包括 程序 库 ) 都 必须 遵循 。 

根据 惯例 ， 寄 存 器 srbx、srbp 和 sr12 一 %r15 被 划分 为 被 调用 者 保存 寄存 器 。 当 过 程 P 
调用 过 程 0 时 ，Q 必须 保存 这 些 寄存 器 的 值 ， 保 证 它们 的 值 在 Q 返回 到 了 时 与 Q 被 调用 时 
.是 一 样 的 。 过 程 0 保存 一 个 寄存 器 的 值 不 变 ， 要么 就 是 根本 不 去 改变 它 ， 要 么 就 是 把 原始 
值 压 人 栈 中 ， 改 变 寄存 器 的 值 ， 然 后 在 返回 前 从 栈 中 弹出 旧 值 。 压 人 寄存 器 的 值 会 在 栈 帧 
中 创建 标号 为 “保存 的 寄存 器 ”的 一 部 分 ， 如 图 3-25 中 所 示 。 有 了 这 条 惯例 ，P 的 代码 就 
能 安全 地 把 值 存在 被 调用 者 保存 寄存 器 中 (当然 ， 要 先 把 之 前 的 值 保 存 到 栈 上 )， 调 用 Q， 
然后 继续 使 用 寄存 器 中 的 值 ， 不 用 担心 值 被 破坏 。 

所 有 其 他 的 寄存 器 ， 除 了 栈 指针 gsrsp， 都 分 类 为 调用 者 保存 寄存 器 。 这 就 意味 着 任何 
函数 都 能 修改 它们 。 可 以 这 样 来 理解 “调用 者 保存 ”这 个 名 字 : 过 程 P 在 某 个 此 类 寄存 器 
中 有 局 部 数据 ， 然 后 调用 过 程 0。。 因 为 @ 可 以 随意 修改 这 个 寄存 器 ， 所 以 在 调用 之 前 首先 
保存 好 这 个 数据 是 P( 调 用 者 ) 的 责任 。 

来 看 一 个 例子 ， 图 3-34a 中 的 函数 P。 它 两 次 调用 Q。 在 第 一 次 调用 中 ， 必 须 保 存 x 的 
值 以 备 后 面 使 用 。 类 似 地 ， 在 第 二 次 调用 中 ， 也 必须 保存 Q(y) 的 值 。 图 3-34b 中 ， 可 以 看 
到 GCC 生成 的 代码 使 用 了 两 个 被 调用 者 保存 寄存 器 :srbp 保存 x 和 srbx 保存 计算 出 来 的 


long Pl(long x, long y) 


long u = Q(y); 


long v = Q(x); 
retnrn TT ; 





a ) 调用 函数 








long P(long x, long y) 
% dn WR, ya Xai 
1 BP 
2 pushq  %rbp Save Yrbp 
3 pushq  %rbx Save Yrbx 
4 subq $8, %rsp Align stack frame 
5 movg %rdi, %rbp Save x 
6 movd %rsi, %rdi Move y to first argument 
” call Q Call 0 
8 movdq %rax, %rbx Save result 
9 movq %rbp, %rdi Move x to first argument 
10 call Q Call Q(x) 
11 addq %rbx, hrax Add saved Q(y) to Q(x). 
12 addq $8, %rsp Deallocate last part of stack 
1 popq Yrbx Restore Yrbx 
14 popq %rbp Restore %rbp 
15 ret 





b ) 调用 函数 生成 的 汇编 代码 


图 3-34 ”展示 被 调用 者 保存 寄存 器 使 用 的 代码 。 在 第 一 次 调用 中 ， 
必须 保存 x 的 值 ， 第 二 次 调用 中 ， 必 须 保 存 0(y) 的 值 














Q(y) 的 值 。 在 函数 的 开头 ， 把 这 两 个 寄存 器 的 值 保 存 到 栈 中 (第 2 一 3 行 )。 在 第 一 次 调用 

之 前 ， 把 参数 x 复制 到 srbp( 第 5 行 )。 在 第 二 次 调用 @ 之 前 ， 把 这 次 调用 的 结果 复制 到 srbx 

(第 8 行 )。 在 函数 的 结尾 ，( 第 13 一 14 行 )， 把 它们 从 栈 中 弹出 ， 恢 复 这 两 个 被 调用 者 保存 寄 

存 器 的 值 。 注 意 它 们 的 弹出 顺序 与 压 和 人 顺序 相反 ， 说 明了 栈 的 后 进 先 出 规则 。 

富 字 练习 题 3. 34 ”一 个 函数 PP 生成 名 为 a0~a7 的 局 部 变量 ， 然 后 调用 函数 0， 没 有 参数 。 
GCC 为 了 的 第 一 部 分 产生 如 下 代码 


long P(Iong x) 





室 让 
1 Pp 
2 pushq  %ri5 
3 pushq  %r14 
4 pushq  %r1i3 
5 pushq  %r12 
6 pushq  %rbp 
7 pushq  %rbx 
8 subq $24, %rsp 
9 movq %rdi, %rbx 
10 leaq iChrai), Xri5 
而 leaq 2(%rdi), %r14 
12 leaq 3(%rdi), %r13 
13 leaq 4(%rdi), %r12 
14 leaq 5(%rdi), %rbp 
15 leaq 6(%rdi), %rax 
16 movq %rax, (Xrsp) 
17 leaq TYradi)s Yrax 
18 movdq %rdx, 8(%rsp) 
19 movl $0, %eax 


20 call Q 
A. 确定 哪些 局 部 值 存储 在 被 调用 者 保存 寄存 器 中 。 


确定 哪些 局 部 变量 存储 在 栈 上 。 
C. 解释 为 什么 不 能 把 所 有 的 局 部 值 都 存储 在 被 调用 者 保存 寄存 器 中 。 


多 


3.7.6 递归 过 程 


前 面 已 经 描述 的 寄存 器 和 栈 的 惯例 使 得 x86-64 过 程 能 够 递归 地 调用 它们 自身 。 每 个 
过 程 调用 在 栈 中 都 有 它 自己 的 私有 空间 ， 因 此 多 个 未 完成 调用 的 局 部 变量 不 会 相互 影响 。 
此 外 ， 栈 的 原则 很 自然 地 就 提供 了 适当 的 策略 ， 当 过 程 被 调用 时 分 配 局 部 存储 ， 当 返回 时 
释放 存储 。 

3-35 给 出 了 递归 的 阶乘 函数 的 C 代码 和 生成 的 汇编 代码 。 可 以 看 到 汇编 代码 使 用 
寄存 器 srbx 来 保存 参数 n， 先 把 已 有 的 值 保 存在 栈 上 (第 2 行 )， 随 后 在 返回 前 恢复 该 值 
(第 11 行 )。 根 据 栈 的 使 用 特性 和 寄存 器 保存 规则 ， 可 以 保证 当 递归 调用 rfact (n-1) 返 回 
时 (第 9 行 )，(1) 该 次 调用 的 结果 会 保存 在 寄存 器 srax 中 ，(2) 参 数 n 的 值 仍然 在 寄存 
器 srbx 中 。 把 这 两 个 值 相 乘 就 能 得 到 期 望 的 结果 。 

从 这 个 例子 我 们 可 以 看 到 ， 递 归 调用 一 个 函数 本 身 与 调用 其 他 函数 是 一 样 的 。 栈 规则 
提供 了 一 种 机 制 ， 每 次 函数 调用 都 有 它 自己 私有 的 状态 信息 (保存 的 返回 位 置 和 被 调用 者 
保存 寄存 器 的 值 ) 存 储 空 间 。 如 果 需 要 ， 它 还 可 以 提供 局 部 变量 的 存储 。 栈 分 配 和 释放 的 
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规则 很 自然 地 就 与 函数 调用 -返回 的 顺序 匹配 。 这 种 实现 函数 调用 和 返回 的 方法 甚至 对 更 
复杂 的 情况 也 适用 ， 包 括 相 互 递归 调用 (例如 ， 过 程 调用 Q@，&@ 再 调用 P) 。 
































long rfact(long n) 
证 
long result; 
if (n <= 1) 
result = 1; 
else 
result = n * rfact(n-1); 
return result,; 
} 
a ) C 代 码 
long rfact (long n) 
nr a Yeadi 
1 riact: 
by pushq  %rbx Save Yrbx 
3 movg %rdi, %rbx Store n in callee-saved register 
4 movl $1, Weax Set return value = 1 
和 cmpq $1, %rdi Compare n:1 
6 jle -E35 If <=, goto done 
7 leaq -1(%rdi), %rdi Compute n-1 
8 call rfact Call rfact(n-1) 
9 imulq  %rbx, %rax Multiply result by n 
10 .L135: done: 
pk popq %rbx Restore %rbx 
位 ret Return 








b ) 生成 的 汇编 代码 
图 3-35 递归 的 阶乘 程序 的 代码 。 标 准 过 程 处 理 机 制 足够 用 来 实现 递归 函数 


ES 练习 题 3. 35 ”一 个 具有 通用 结构 的 C 函数 如 下 : 


long rfun(unsigned long x) { 
if ( ge 
return ps 


unsigned long nx = ns 
long rv = rfun(nx); 


DOG se 

小 

GCC 产生 如 下 汇编 代码 ， 
long rfun(unsigned long x) 
dy Ni 

| rfun: 

2 pushq  %rbx 

3 movqg %rdi, %rbx 

4 movl $0, Weax 

雪 testq  %rdi, %rdi 
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6 je - 工 2 

7 shrq $2, %rdi 

8 call rfun 

9 addq %rbx, hrax 
10 D2: 

Li popq %rbx 

12 ret 


A. rfun 存储 在 被 调用 者 保存 寄存 器 %rbx 中 的 值 是 什么 ? 
B. 填写 上 述 C 代码 中 缺失 的 表达 式 。 


3.8 数组 分 配 和 访问 
C 语言 中 的 数组 是 一 种 将 标量 数据 聚集 成 更 大 数据 类 型 的 方式 。C 语言 实现 数组 的 方式 
非常 简单 ， 因 此 很 容易 翻译 成 机 器 代码 。C 语言 的 一 个 不 同 寻常 的 特点 是 可 以 产生 指向 数组 
中 元 素 的 指针 ， 并 对 这 些 指 针 进行 运算 。 在 机 器 代码 中 ， 这 些 指针 会 被 翻译 成 地 址 计算 。 
优化 编译 器 非常 善于 简化 数组 索引 所 使 用 的 地 址 计算 。 不 过 这 使 得 C 代码 和 它 到 机 器 
代码 的 翻译 之 间 的 对 应 关系 有 些 难 以 理解 。 


3.8.1 基本 原则 


对 于 数据 类 型 和 整 型 常数 N ， 声 明 如 下 : 

T ALN]; 
起 始 位 置 表示 为 zs*。 这 个 声明 有 两 个 效果 。 首 先 ， 它 在 内 存 中 分 配 一 个 人。NN 字 节 的 连续 
区 域 ， 这 里 工 是 数据 类 型 了 的 大 小 (单位 为 字 节 )。 其 次 ， 它 引入 了 标识 符 A， 可 以 用 A 来 
作为 指向 数组 开头 的 指针 ， 这 个 指针 的 值 就 是 zs。 可 以 用 0 一 Nrl 的 整数 索引 来 访问 该 数 
组 元 素 。 数 组 元 素 i 会 被 存放 在 地 址 为 zs 十 L，i 的 地 方 。 

作为 示例 ， 让 我 们 来 看 看 下 面 这 样 的 声明 : 

char A[12]; 

char  *B[8]; 


int c[6]; 
double *D[5]; 


这 些 声明 会 产生 带 下 列 参数 的 数组 : 














| 数组 | 元 素 大 小 | 起 始 地 址 | 元 素 ; 
入 1 Kn 六 
B 8 XB Za 十 8i 
(8) 4 xe XE 二 上 
D 8 未 p zo 8i 








数组 A 由 12 个 单字 节 (char) 元 素 组 成 。 数 组 C 由 6 个 整数 组 成 ， 每 个 需要 8 个 字 节 。 
B 和 D 都 是 指针 数组 ， 因 此 每 个 数组 元 素 都 是 8 个 字 节 。 

x86-64 的 内 存 引 用 指令 可 以 用 来 简化 数组 访问 。 例如， 假设 是 一 个 int 型 的 数组 ， 
而 我 们 想 计算 E[i]， 在 此 ，E 的 地 址 存放 在 寄存 器 $rdx 中 ， 而 i 存放 在 寄存 器 %$rcx 中 。 


movl (%rdx,%rcx,4),%eax 


会 执行 地 址 计算 ze 十 4， 读 这 个 内 存 位 置 的 值 ， 并 将 结果 存放 到 寄存 器 seax 中 。 人 允许 的 
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伸缩 因子 1、2、4 和 8 覆盖 了 所 有 基本 简单 数据 类 型 的 大 小 。 
公信 练习 题 3. 36 考虑 下 面 的 声明 ， 

Short S[7] ; 

short  *T[3]; 

Short **U[6]; 

int V[8] ; 

double *W[4]; 


填写 下 表 ， 描 述 每 个 数组 的 元 素 大 小 、 整 个 数组 的 大 小 以 及 元 素 i 的 地 址 : 


























数组 元 素 大 小 ”| 整个 数组 的 大 小 起 始 地 址 元 素 i 
S Xs 
ie Zr 
一 一 
V Tv 
Ww Tw 




















3.8.2 指针 运算 


C 语言 允许 对 指针 进行 运算 ， 而 计算 出 来 的 值 会 根据 该 指针 引用 的 数据 类 型 的 大 小 进 
行 伸缩 。 也 就 是 说 ， 如 果 p 是 一 个 指向 类 型 为 工 的 数据 的 指针 ，Pp 的 值 为 zx ， 那 么 表达 式 
p 十 i 的 值 为 x, 十 L，i， 这 里 工 是 数据 类 型 的 大 小 。 

单 操作 数 操作 符 ‘g? 和 “* :可 以 产生 指针 和 间接 引用 指针 。 也 就 是 ， 对 于 一 个 表示 某 
个 对 象 的 表达 式 Expr，&Expr 是 给 出 该 对 象 地 址 的 一 个 指针 。 对 于 一 个 表示 地 址 的 表达 
式 AExpr，*AExpr 给 出 该 地 址 处 的 值 。 因 此 ， 表 达 式 Expr 与 * &Expr 是 等 价 的 。 可 以 对 
数组 和 指针 应 用 数组 下 标 操 作 。 数 组 引用 Arij] 等 同 于 表达 式 * (A+ i)。 它 计算 第 i 个 数 
组 元 素 的 地 址 ， 然 后 访问 这 个 内 存 位 置 。 

扩展 一 下 前 面 的 例子 ,假设 整 型 数组 E 的 起 始 地 址 和 整数 索引 i 分 别 存放 在 寄存 器 
%rdx 和 srcx 中 。 下 面 是 一 些 与 EE 有关 的 表达 式 。 我 们 还 给 出 了 每 个 表达 式 的 汇编 代码 实 
现 ， 结 果 存 放 在 寄存 器 $eax( 如 果 是 数据 ) 或 寄存 器 $rax( 如 果 是 指针 ) 中 。 






























































表达 式 类 型 值 汇编 代码 
E LiE* XE movg Srdx, Srax 
| E[0] int M[ze] movl (Srdx),Srax 
E[i] int M[ ze 二 4 moV1 (%rdx,%Srcx,4),%Seax 
&E [2] int* 0 leaq 8 (S$rdx), Srax 
E+i-1 int* ze4i—4 leaq-4 (Srdx, Srcx, 4) , S$rax 
* (E+i-3) int | M[zes 十 4; 一 12] mov1l-12 (Srdx, S$rcx, 4) , Seax | 
&E [i]-E long | ITmOVG Srcx,%rax 








在 这 些 例子 中 ， 可 以 看 到 返回 数组 值 的 操作 类 型 为 int， 因 此 涉及 4 字 节 操作 (例如 
mov1) 和 寄存 器 (例如 seax)。 那 些 返 回 指针 的 操作 类 型 为 int * ， 因 此 涉及 8 字 节 操作 
(例如 leaq) 和 寄存 器 (例如 srax)。 最 后 一 个 例子 表明 可 以 计算 同一 个 数据 结构 中 的 两 个 
指针 之 差 ， 结 果 的 数据 类 型 为 1ong， 值 等 于 两 个 地 址 之 差 除 以 该 数据 类 型 的 大 小 。 


、 练 习题 3. 37 ”假设 短 整 型 数组 S 的 地 址 xs 和 整数 索引 工分 别 存放 在 寄存 器 srdx 和 


%rcx 中 。 对 下 面 每 个 表达 式 ， 给 出 它 的 类 型 、 值 的 表达 式 和 汇编 代码 实现 。 如 果 结 果 
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是 指针 的 话 ， 要 保存 在 寄存 器 %rax 中 ， 如 果 数 据 类 型 为 short， 就 保存 在 寄存 器 元 


素 %ax 中 。 





表达 式 类 型 | 什 


汇编 代码 





六 





S[3] 





&S[ij 





总 [证 1) 











S+ 二 -5 | 











3. 8. 3 ” 崩 套 的 数组 


当 我 们 创建 数组 的 数组 时 ， 数 组 分 配 和 引用 的 一 般 原则 也 是 成 立 的 。 例 如 ， 声 明 


int A[5] [3] ; 
等 价 于 下 面 的 声明 


typedef int row3_t[3]; 
row3_t A[5] ; 


数据 类 型 row3 上 被 定义 为 一 个 3 个 整数 的 数组 。 数 组 A 包含 5 个 这 样 的 元 素 ， 每 个 元 素 
需要 12 个 字 节 来 存储 3 个 整数 。 整 个 数组 的 大 小 就 是 4X5X3 二 60 字 节 。 


数组 A 还 可 以 被 看 成 一 个 5 行 3 列 的 二 维 数组 ， 用 A[0] 
[0] 到 A[4] [2] 来 引用 。 数 组 元 素 在 内 存 中 按照 “ 行 优 先 ” 的 
顺序 排列 ， 意 味 着 第 0 行 的 所 有 元 素 ， 可 以 写作 A[0]， 后 面 
跟着 第 1 行 的 所 有 元 素 (A[1])， 以 此 类 推 ， 如 图 3-36 所 示 。 

这 种 排列 顺序 是 藤 套 声明 的 结果 。 将 A 看 作 一 个 有 5 个 
元 素 的 数组 ， 每 个 元 素 都 是 3 个 int 的 数组 ， 首 先是 A[0]， 
然后 是 AI1]， 以 此 类 推 。 

要 访问 多 维 数组 的 元 素 ， 编 译 器 会 以 数组 起 始 为 基地 址 ， 
(可 能 需要 经 过 伸缩 的 ) 偏 移 量 为 索引 ， 产 生计 算 期 望 的 元 素 
的 偏 移 量 ， 然 后 使 用 某 种 MOV 指令 。 通 常 来 说 ， 对 于 一 个 
声明 如 下 的 数组 : 


T DCR] [IC] ; 
它 的 数组 元 素 D[i] [j] 的 内 存 地 址 为 
&DLiJ[jj] = zo 二 L(C.i+)) (3. 1) 


这 里 , 工 是 数据 类 型 工 以 字 节 为 单位 的 大 小 。 作 为 一 个 示例 ， 














TPTPTPTPTPTPPTPTPTPTPPPP 
人 WwwNNNPPPGeSS 浊 


素 地 址 


A[O] ] Ea 


Xxa+4 
Xa+8 
次 二 12 
Xxa+16 
xa+20 
xa+ 24 
Xa + 28 
Xa + 32 
Xxa+36 
Xxa+40 
Xa + 44 
Xa + 48 
Xa+52 








r nr 一 一 - 
RP ES BS 











Xxa+56 





图 3-36 


按照 行 优先 顺序 
存储 的 数组 元 素 





考虑 前 面 定义 的 5X3 的 整 型 数组 A。 假 设 xz。、i 和 j 分 别 在 寄存 器 srdi、 srsi 和 s%rgdx 中 。 
然后 ， 可 以 用 下 面 的 代码 将 数组 元 素 A[i] [j] 复 制 到 寄存 器 $eax 中 : 


a i A 3 ln Wi i i 
| leaq (Xrsi,%rsi,2), %rax Compute 3i 
交 leaq (Xrdi,%rax,4), hrax Compute xs + 12i 
3 movl (Wrax,%rdx,4), heax Read from M[xa + 12i+4j] 


正如 可 以 看 到 的 那样 ， 这 段 代 码 计算 元 素 的 地 址 为 zs 十 12i 十 4 二 zs 十 4(3i 十 7)， 使 用 了 


x86-64 地 址 运算 的 伸缩 和 加 法 特性 。 
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这 练习 题 3. 38 ”考虑 下 面 的 源 代码 ， 其 中 M 和 NN 是 用 # define 声明 的 常数 : 


long PLM] [N] ; 
long Q[N] [M] ; 


long sum_element(long i, long j) { 
return P[i][j] + Q[j] [i]; 
} 


在 编译 这 个 程序 中 ，GCC 产生 如 下 汇编 代码 : 


long sum_element(long i, long j) 
1 i 3 王 放 3 
sum_element: 
leaq 0(,%rdi,8), %rdx 
subq %rdi, %rdx 
addq %rsi, %rdx 
leaq (Xrsi,%rsi,4), %rax 
addq Xrax, %rdi 
movd Q(,%rdi,8), %rax 
addq PUNraxsd), Wrax 
ret 


运用 逆向 工程 技能 ， 根 据 这 段 汇编 代码 ， 确 定 M 和 NN 的 值 。 


MD om 和 上 上 mwN 一 


3.8.4 定 长 数组 


C 语 言 编译 器 能 够 优化 定 长 多 维 数组 上 的 操作 代码 。 这 里 我 们 展示 优化 等 级 设置 为 - 
01 时 GCC 采 用 的 一 些 优化 。 假 设 我 们 用 如 下 方式 将 数据 类 型 fix_matrix 声 明 为 16X16 
的 整 型 数组 : 

#define N 16 

.typedef int fix_matrix[N] [N]; 


(这 个 例子 说 明了 一 个 很 好 的 编码 习惯 。 当 程序 要 用 一 个 常数 作为 数组 的 维度 或 者 缓冲 区 
的 大 小 时 ， 最 好 通过 # define 声明 将 这 个 常数 与 一 个 名 字 联 系 起 来 ， 然 后 在 后 面 一 直 使 
用 这 个 名 字 代 替 常 数 的 数值 。 这 样 一 来 ， 如 果 需 要 修改 这 个 值 ， 只 用 简单 地 修改 这 个 # 
，define 声明 就 可 以 了 。) 图 3-37a 中 的 代码 计算 矩阵 A 和 B 乘积 的 元 素 i, &k， 即 A 的 行 i 和 
B 的 列 & 的 内 积 。GCC 产生 的 代码 (我 们 再 反 汇 编 成 C)， 如 图 3-37b 中 函数 fix prod 
ele_opt 所 示 。 这 段 代码 包含 很 多 聪明 的 优化 。 它 去 掉 了 整数 索引 7， 并 把 所 有 的 数组 引 
用 都 转换 成 了 指针 间接 引用 ， 其 中 包括 (1) 生 成 一 个 指针 ， 命 名 为 Aptr， 指 向 A 的 行 i 中 
连续 的 元 素 ; (2) 生 成 一 个 指针 ， 命名 为 Bptr， 指 向 B 的 列 & 中 连续 的 元 素 ; (3) 生 成 一 
个 指针 ， 命 名 为 Bend， 当 需 要 终 上 该 入 时 ， 它 会 等 于 Bptr 的 值 。Aptr 的 初始 值 是 A 
的 行 i 的 第 一 个 元 素 的 地 址 ， ear &A[i] [0] 给 出 。Bptr 的 初始 值 是 B 的 列 & 的 第 

一 个 元 素 的 地 址 ， 由 C 表达 式 sB[0] [k] 给 出 。Bena 的 值 是 假想 中 B 的 列 j 的 第 (xn 十 1) 个 
元 素 的 地 址 ， 由 C 表达 式 &B [N] pe 

下 面 给 出 的 是 GCC 为 函数 fix prod ele 生成 的 这 个 循环 的 实际 汇编 代码 。 我 们 看 
到 4 个 寄存 器 的 使 用 如 下 :seax 保存 result,srdi 保存 Aptr, srcx 保存 Bptr, 而 srsi 保 
存 Bend。 
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/* Compute i,k of fixed matrix product */ 
int fix_prod_ele (fix_matrix A, fix_matrix B, long i, long k) { 
long j; 
int result = 0; 
For (j =O 3 < Ns t+) 
result += A[i] [j] * B[j] [k]; 
return result; 
ep 
a ) 原始 的 C 代 码 
1 /* Compute i,k of fixed matrix product */ 
2 int fix_prod_ele_opt (fix_matrix A, fix_matrix B, long i, long k) { 
. int *Aptr = &A[i] [0]; /* Points to elements in row i of A */ 
4 int *Bptr = &B[O] [k]; /* Points to elements in column k of B */ 
5 int *Bend = &BI[N] [k]; /* Marks stopping point for Bptr */ 
6 int result = 0; 
7 do { /* No need for initial test */ 
8 result += *Aptr * *Bptr; /* Add next product to sum */ 
9 Aptr ++; /* Move Aptr to next column */ 
10 Bptr += Ni; /* Move Bptr to next row */ 
11 } while (Bptr != Bend); /* Test for stopping point */ 
12 return result; 
幢 才 
b ) 优化 过 的 C 代 码 
图 3-37 原始 的 和 优化 过 的 代码 ， 该 代码 计算 定 长 数组 的 矩阵 乘积 的 元 素 i,，k。 
编译 器 会 自动 完成 这 些 优化 
nt Fix prodsele opt(fix natrix MA: fr.natriz B, 10ng 1, 10ng8 BY) 
d dn Wrdi, BB in Vrsd, 41 1 rdxs EE .3 Xrex 
1 fix_prod_ele: 
2 Salq $6, hrdx Compute 64 * i 
3 addq Wrdx; Wrdi Compute Aptr = xA+64i = &A[i] [0] 
4 leaq (%rsi,%rcx,4), hrcx Compute Bptr = xp 十 4K = &B[0] AI 
5 leaq 1024(%rcx), %rsi Compute Bend = xp++4k+1024 = &B[IN] [k] 
6 movl $0, %eax Set result = 0 
交 ol loop: 
8 movl (%rdi), %edx Read *Aptr 
9 imull (Xrcx), Whedx Multiply by *Bptr 
| 而 add] Wedx, Weax Add to resuilt 
而 addq $4, %rdi Increment Aptr ++ 
12 addq $64, %rcx Increment Bptr += 及 
13 cmpq %rsi, hrcx Compare Bptr:Bend 
14 jne .:L7 If !=, goto loop 
3 rep; ret Return 


练习 题 3. 39 利用 等 式 3.1 来 解释 图 3-37b 的 C 代码 中 Aptr、Bptr 和 Bend 的 初始 值 计 


算 ( 第 3~5 行 ) 是 如 何 正确 反映 fix prod ele 的 汇编 代码 中 它们 的 计算 (第 3~5 行 ) 的 。 
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训练 习题 3.40 下 面 的 C 代 码 将 定 长 数组 的 对 角 线 上 的 元 素 设置 为 val: 


/* Set all diagonal elements to val */ 
void fix_set_diag(fix matrix A, int val) 攻 
long i; 
for (i = 0; i < N; i++) 
A[i] [i] = val; 


当 以 优化 等 级 -01 编译 时 ，GCC 产生 如 下 汇编 代码 : 
1 fix_set_diag: 
void fix_set_diag(fix_matrix A, int val) 


站 i rd yal Yn Yras 


movl $0, heax 

3 Ll13; 

4 mov1 Wesi, (%rdi,%rax) 
二 addq $68, hrax 

6 cmpq $1088, %rax 

D4 jne .L1i3 

8 rep; ret 


创建 一 个 C 代码 程序 fix set diag opt， 它 使 用 类 似 于 这 段 汇编 代码 中 所 使 用 
的 优化 ， 风 格 与 图 3-37b 中 的 代码 一 致 。 使 用 含有 参数 N 的 表达 式 ， 而 不 是 整数 常 
量 ， 使 得 如 果 重 新 定义 了 N， 你 的 代码 仍 能 够 正确 地 工作 。 


3.8.5 变 长 数组 


历史 上 ，C 语言 只 支持 大 小 在 编译 时 就 能 确定 的 多 维 数组 (对 第 一 维 可 能 有 些 例外 )。 
程序 员 需 要 变 长 数组 时 不 得 不 用 malloc 或 calloc 这 样 的 函数 为 这 些 数组 分 配 存储 空间 ， 而 
且 不 得 不 显 式 地 编码 ， 用 行 优 先 索 引 将 多 维 数组 映射 到 一 维 数组 ， 如 公式 (3. 1) 所 示 。ISO 
C99 引信 了 一 种 功能 ， 人 允许 数 组 的 维度 是 表达 式 ， 在 数组 被 分 配 的 时 候 才 计算 出 来 。 

在 变 长 数组 的 C 版 本 中 ， 我 们 可 以 将 一 个 数组 声明 如 下 : 

int A[expr7] [expr2] 


它 可 以 作为 一 个 局 部 变量 ， 也 可 以 作为 一 个 函数 的 参数 ， 然 后 在 遇 到 这 个 声明 的 时 候 ， 通 
过 对 表达 式 exprl 和 ezzpr2 求 值 来 确定 数组 的 维度 。 因 此 ， 例 如 要 访问 nXn 数组 的 元 素 
i,，j， 我 们 可 以 写 一 个 如 下 的 函数 : 


int var_ele(long n, int A[n] [n] long i, long j) { 
return A[i] [j]; . 
} 


参数 n 必须 在 参数 A[n] [n] 之 前 ， 这 样 函数 就 可 以 在 遇 到 这 个 数组 的 时 候 计 算出 数组 的 维度 。 
GCC 为 这 个 引用 函数 产生 的 代码 如 下 所 示 : 


int var_ele(long n, int Al[nj[n], long i, long j) 

i dn Wredt, 4 dh Wai, 1 dn Wd 1 dn Xrez 

1 Var_ele : 

imulq  %rdx, %rdi Compute n :i 

3 leaq (%rsi,%rdi,4), %rax Compute xa+4(n. i) 

4 movl (Xrax,%rcx,4), %eax Read from M[xs+4(n: i)+4)] 
5 ret 
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正如 注释 所 示 ， 这 上段 代码 计算 元 素 i，j 的 地 址 为 x 十 4(n :让 十 4j 王 xs 十 4(n，' i 十 j)。 这 
个 地 址 的 计算 类 似 于 定 长 数组 的 地 址 计算 (参见 3. 8. 3 节 )， 不 同 点 在 于 1) 由 于 增加 了 参数 
2， 寄存 器 的 使 用 变化 了 ;， 2) 用 了 乘法 指令 来 计算 2 ;第 2 行 )， 而 不 是 用 1eaq 指令 来 计 
算 3i。 因 此 引用 变 长 数组 只 需要 对 定 长 数组 做 一 点 儿 概括 。 动 态 的 版 本 必须 用 乘法 指令 对 
i 伸缩 n 倍 ， 而 不 能 用 一 系列 的 移 位 和 加 法 。 在 一 些 处 理 器 中 ， 乘 法 会 招致 严重 的 性 能 处 
罚 ， 但 是 在 这 种 情况 中 无 可 避免 。 

在 一 个 循环 中 引用 变 长 数组 时 ， 编 译 器 常常 可 以 利用 访问 模式 的 规律 性 来 优化 索引 的 
计算 。 例 如 ， 图 3-38a 给 出 的 C 代码 ， 它 计算 两 个 nXn 矩阵 A 和 B 乘积 的 元 素 i,k。 
GCC 产生 的 汇编 代码 ， 我 们 再 重新 变 为 C 代码 (图 3-38b)。 这 个 代码 与 固定 大 小 数组 的 优 
化 代码 (图 3-37) 风 格 不 同 ， 不 过 这 更 多 的 是 编译 器 选择 的 结果 ， 而 不 是 两 个 函数 有 什么 根 
本 的 不 同 造成 的 。 图 3-38b 的 代码 保留 了 循环 变量 ]， 用 以 判定 循环 是 否 结束 和 作为 到 A 
的 行 i 的 元 素 组 成 的 数组 的 索引 。 








/* Compute i,k of variable matrix product */ 

int var_prod_ele(long n, int A[n][n], int B[n] [n] long i, long k) { 
long j; 
int result = 0; 让 


1 
入 
3 
4 
5 
6 on (ij = 0; J < nm J+F) 

result += A[i][j] * B[j] Lk]; 
8 

9 return result; 


10 } 











a ) 原始 的 C 代 码 





/* Compute i,k of variable matrix product */ 
int var_prod_ele_opt(long n, int A[n] [n] ，int B[n] [n] long i, long k) { 
int *Arow = A[i]; 
int *Bptr = &B[0] [k]; 
int result = 0; 
long j; 
far (TF = O% F < na jt { 
result += Arow[j] * *Bptr; 
Bptr += n; 
小 


return result; 

















b ) 优化 后 的 C 代 码 
图 3-38 ”计算 变 长 数组 的 矩阵 乘积 的 元 素 i, 的 原始 代码 和 优化 后 的 代码 。 编 译 器 自动 执行 这 些 优 化 
下 面 是 var _ prod ele 的 循环 的 汇编 代码 : 


Registers: n in Yrdi, Arow in Yrsi, Bptr in Mrcx 
4n in Yr9, result in Yeax, j in Yedx 
.L24: loop: 
之 movl (rsSi /rdr 4s WESd Read Arow[j] 
imull GArex), hrsd Multiply by *Bptr 


Ww 





4 addl %r8d, Weax Add to result 

a addq $1, %rdx J++ 

6 addq hII: WECE Bptr += n 

7 cmpq %rdi, %rdx Compare 了 :了 

8 jne .L24 If !=, goto loop 


我 们 看 到 程序 既 使 用 了 伸缩 过 的 值 4n( 寄 存 器 $r9) 来 增加 Bptr， 也 使 用 了 的 值 ( 寄 
存 器 $rdi) 来 检查 循环 的 边界 。C 代码 中 并 没有 体现 出 需要 这 两 个 值 ， 但 是 由 于 指针 运算 
的 伸缩 ， 才 使 用 了 这 两 个 值 。 

可 以 看 到 ， 如 果 人 允许 使 用 优化 ，GCC 能 够 识别 出 程序 访问 多 维 数组 的 元 素 的 步 长 。 
然后 生成 的 代码 会 避免 直接 应 用 等 式 (3. 1) 会 导致 的 乘法 。 不 论 生成 基于 指针 的 代码 (图 3- 
37b) 还 是 基于 数组 的 代码 (图 3-38b)， 这 些 优 化 都 能 显著 提高 程序 的 性 能 。 


3.9 异 质 的 数据 结构 


C 语言 提供 了 两 种 将 不 同类 型 的 对 象 组 合 到 一 起 创建 数据 类 型 的 机 制 : 结构 (struc- 
ture)， 用 关键 字 struct 来 声明 ， 将 多 个 对 象 集合 到 一 个 单位 中 ; 联合 (union)， 用 关键 
字 union 来 声明 ， 人 允许 用 几 种 不 同 的 类 型 来 引用 一 个 对 象 。 





3.9.1 结构 


C 语言 的 struct 声明 创建 一 个 数据 类 型 ， 将 可 能 不 同类 型 的 对 象 聚合 到 一 个 对 象 中 。 
用 名 字 来 引用 结构 的 各 个 组 成 部 分 。 类 似 于 数组 的 实现 ， 结 构 的 所 有 组 成 部 分 都 存放 在 内 
存 中 一 段 连续 的 区 域内 ， 而 指向 结构 的 指针 就 是 结构 第 一 个 字 节 的 地 址 。 编 译 器 维护 关于 
每 个 结构 类 型 的 信息 ， 指 示 每 个 字段 (field) 的 字 节 偏 移 。 它 以 这 些 偏 移 作 为 内 存 引 用 指令 
中 的 位 移 ， 从 而 产生 对 结构 元 素 的 引用 。 


本 将 一 个 对 象 表示 为 struct 

“语言 提供 的 struct 数据 类 型 的 构造 函数 (constructor) 与 C++ 和 Java 的 对 象 最 为 接近 。 
它 允 许 程序 员 在 一 个 数据 结构 中 保存 关于 某 个 实体 的 信息 ， 并 用 名 字 来 引用 这 些 信息 。 
例如 ， 一 个 图 形 程序 可 能 要 用 结构 来 表示 一 个 长 方形 : 
struct rect +{ 

long llx; /* X coordinate of lower-left corner */ 

long lly; /* Y coordinate of lower-left corner */ 

unsigned long width; /* Width (in pixels) */ 

unsigned long height; /* Height (in pixels) */ 

unsigned color; /* Coding of color */ 





}; 

可 以 声明 一 个 struct rect 类 型 的 变量 r， 并 将 它 的 字段 值 设置 如 下 : 
struct rect 工 ; 

r.llx = r.lly = 0; 

TCOlLor OxFFOOFF; 


r.width 10; 
r.height = 20; 


这 里 表达 式 r .11x 就 会 选择 结构 的 11x 字段 。 
另外 ， 我 们 可 以 在 一 条 语句 中 既 声 明 变 量 又 初始 化 它 的 字段 : 








struct rect r = { 0, 0, 10, 20, OxFFOOFF }; 

将 指向 结构 的 指针 从 一 个 地 方 传 递 到 另 一 个 地 方 ， 而 不 是 复制 它们 ， 这 是 很 常见 
的 。 人 例如， 下面 的 函数 计算 长 方形 的 面积 ， 这 里 ， 传 递 给 函数 的 就 是 一 个 指向 长 方形 
struct 的 指针 : 


long area(struct rect *rp) 荆 
return (*rp).width * (*rp) .height; 


表达 式 (*rp) .width 间接 引用 了 这 个 指针 ， 并 且 选 取 所 得 结构 的 width 字段 。 这 
里 必须 要 用 括号 ， 因 为 编译 器 会 将 表达 式 *rp.width 解释 为 * (rp.width)， 而 这 是 非 
法 的 。 间 接 引 用 和 字段 选取 结合 起 来 使 用 非常 常见 ， 以 至 于 CC 语言 提供 了 一 种 替代 的 表 
示 法 -> 。 即 rp-> width 等 价 于 表达 式 (*rp) .width。 人 例如， 我 们 可 以 写 一 个 函数 ， 它 
将 一 个 长 方形 顺 时 针 旋 转 90 度 : 
void rotate_left(struct rect *rp) +{ 
/* Exchange width and height */ 
long t = rp->height; 
rp-~>height = rp->width; 
rp->width = t; 
/* Shift to new lower-left corner */ 
rp->1lx -= 七; 
} 
C++ 和 Java 的 对 象 比 C 语 言 中 的 结构 要 复杂 精细 得 多 ， 因 为 它们 将 一 组 可 以 被 调 
用 来 执行 计算 的 方法 与 一 个 对 象 联系 起 来 。 在 C 语 言 中 ,我 们 可 以 简单 地 把 这 些 方法 写 
成 普通 函数 ， 就 像 上 面 所 示 的 函数 area 和 rotate left。 


让 我 们 来 看 看 这 样 一 个 例子 ， 考 虑 下 面 这 样 的 结构 声明 : 
struct rec { 
int i; 
1 党 
int a[2] ; 
int *p; 
2 
这 个 结构 包括 4 个 字段 : 两 个 4 字 节 int、 一 个 由 两 个 类 型 为 int 的 元 素 组 成 的 数组 和 一 
个 8 字 节 整 型 指针 ， 总 共 是 24 个 字 节 : 
偏 移 0 4 8 16 24 
| | 3 | ml] Mm] nm | 
可 以 观察 到 ， 数 组 a 是 其 和 人 到 这 个 结构 中 的 。 上 图 中 顶部 的 数字 给 出 的 是 各 个 字段 相 
对 于 结构 开始 处 的 字 节 偏 移 。 
为 了 访问 结构 的 字段 ， 编 译 器 产生 的 代码 要 将 结构 的 地 址 加 上 适当 的 偏 移 。 例 如 ， 假 
设 struct rec* 类 型 的 变量 r 放 在 寄存 器 $rdi 中 。 那 么 下 面 的 代码 将 元 素 r->i 复制 到 
元 素 r->j: 
Registers: r in Yrdi 


movl (%rdi), %eax Get r->i 
之 movl Xeax, 4(%rdi) Store in r->j 


eh 
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因为 字段 i 的 偏 移 量 为 0， 所 以 这 个 字段 的 地 址 就 是 + 的 值 。 为 了 存储 到 字段 ]， 代 码 要 
将 上 的 地 址 加 上 偏 移 量 4。 

要 产生 一 个 指向 结构 内 部 对 象 的 指针 ， 我 们 只 需 将 结构 的 地 址 加 上 该 字段 的 偏 移 量 。 
例如 ， 只 用 加 上 偏 移 量 8 十 4X1= 二 12， 就 可 以 得 到 指针 & (r->a[1])。 对 于 在 寄存 器 srdi 
中 的 指针 r 和 在 寄存 器 srsi 中 的 长 整数 变量 i， 我 们 可 以 用 一 条 指令 产生 指针 & (r->a 
[i]) 的 值 : 

Repisteors: F in Xrdi, 1 Vrsi 
1 leaq 8(%rdi,%rsi,4), %rax Set Yrax to &r->a[i] 
最 后 举 一 个 例子 ， 下 面 的 代码 实现 的 是 语句 : 


r->p = &r->a[r->i + r->j]; 


开始 时 r 在 寄存 器 $rdi 中 : 


Registers: r in Yrdi 


1 movl 4(%rdi), %eax Get r->j 

2 addl (%rdi), %eax Add r->i 

3 cltq Extend to 8 bytes 

4 leaq 8(%rdi,%rax,4), hrax Compute &r->a[r->i + r->j] 
5 movqd Xrax, 16(%rdi) Store in r->p 


综 上 所 述 ， 结 构 的 各 个 字段 的 选取 完全 是 在 编译 时 处 理 的 。 机 器 代码 不 包含 关于 字段 
声明 或 字段 名 字 的 信息 。 
EN 练习 题 3. 41 考虑 下 面 的 结构 声明 : 


struct prob { 
int *p; 
struct { 
区 
int y; 
本 
struct prob *next; 
}; 
这 个 声明 说 明 一 个 结构 可 以 嵌 套 在 另 一 个 结构 中 ， 就 像 数 组 可 以 嵌 套 在 结构 中 、 数 组 
可 以 虞 套 在 数组 中 一 样 。 
下 面 的 过 程 ( 省 略 了 某 些 表达 式 ) 对 这 个 结构 进行 操作 : 
void sp_init(struct prob *sp) { 


sp->s.x 


SP->P 
sp->next 


A. 下 列 字段 的 偏 移 量 是 多 少 ( 以 字 节 为 单位 )? 


3 en 
next: PO 
B. 这 个 结构 总 共 需 要 多 少 字 节 ? 
C. 编译 器 为 sp_init 的 主体 产生 的 汇编 代码 如 下 : 





void sp_init(struct prob *sp) 
p11 Xrai 


1 SP_init : 

当 movl 12(%rdi), %eax 
3 movl Xeax, 8(%rdi) 
4 leaq 8(%rdi), %rax 
5 movdq %rax, (%rdi) 

6 movdq %rdi, 16(%rdi) 
Fs ret 


根据 这 些 信息 ， 填 写 sp init 代码 中 缺失 的 表达 趟 。 
司 S 练习 题 3. 42 ”下面 的 代码 给 出 了 类 型 ELE 的 结构 声明 以 及 函数 fun 的 原型 


struct ELE { 
long VV 
struct ELE *p; 
J 


long fun(struct ELE *ptr); 
当 编 译 fun 的 代码 时 ，GCC 会 产生 如 下 汇编 代码 : 


long fun(struct ELE *ptr) 
ptr in Yrdi 


1 fun: 

2 movl $0, %eax 

3 jmp .L2 

4 .L3: 

addq (%rdi), %rax 
6 movdq 8(%rdi), %rdi 
7 下 2 

8 testq  ‘%rdi, %rdi 

9 jne .L3 

10 rep; ret 


A. 利用 逆向 工程 技巧 写 出 fun 的 C 代 码 。 
B. 描述 这 个 结构 实现 的 数据 结构 以 及 fun 执行 的 操作 。 


3.9.2 联合 


联合 提供 了 一 种 方式 ， 能够 规避 C 语言 的 类 型 系统 ， 人 允许 以 多 种 类 型 来 引用 一 个 对 
象 。 联 合 声明 的 语法 与 结构 的 语法 一 样 ， 只 不 过 语义 相差 比较 大 。 它 们 是 用 不 同 的 字段 来 
引用 相同 的 内 存 块 。 

考虑 下 面 的 声明 : 


struct S3 { 
char c; 
int i[2]; 
double v; 

上 

union U3 { 
char c; 
int i[2]; 
double v; 


}3 
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在 一 台 x86-64 Linux 机 器 上 编译 时 ， 字 段 的 偏 移 量 、 数 据 类 型 S3 和 U3 的 完整 大 小 如 下 : 














| 类 型 | c | i v | 大 小 
S3 0 4 16 24 
U3 0 0 0 8 








( 稍 后 会 解释 S3 中 i 的 偏 移 量 为 什么 是 4 而 不 是 1， 以 及 为 什么 v 的 偏 移 量 是 16 而 不 是 9 
或 12.) 对 于 类 型 union U3 * 的 指针 p，p-> c、p-> i[0] 和 p-> v 引 用 的 都 是 数据 结构 
的 起 始 位 置 。 还 可 以 观察 到 ， 一 个 联合 的 总 的 大 小 等 于 它 最 大 字段 的 大 小 。 
在 一 些 下 上 文中 ， 联 合十 分 有 用 。 但 是 ， 它 也 能 引起 一 些 讨厌 的 错误 ， 因 为 它们 绕 过 
了 C 语言 类 型 系统 提供 的 安全 措施 。 一 种 应 用 情况 是 ， 我 们 事先 知道 对 一 个 数据 结构 中 的 
两 个 不 同 字 段 的 使 用 是 互 斥 的 ， 那 么 将 这 两 个 字段 声明 为 联合 的 一 部 分 ， 而 不 是 结构 的 一 
部 分 ， 会 减 小 分 配 空间 的 总 量 。 
例如 ， 假 设 我 们 想 实 现 一 个 二 又 树 的 数据 结构 ， 每 个 叶子 节点 都 有 两 个 double 类 型 的 
数据 值 ， 而 每 个 内 部 节点 都 有 指向 两 个 孩子 节点 的 指针 ， 但 是 没有 数据 。 如 果 声 明 如 下 : 
struct node_s { 
struct node_s *left; 
struct node_s *right; 
double data[2] ; 
天 
那么 每 个 节点 需要 32 个 字 节 ， 每 种 类 型 的 节点 都 要 浪费 一 半 的 字 节 。 相 反 ， 如 果 我 们 如 
下 声明 一 个 节点 : 
union node_u { 
struct { 
union node_u *left; 
union node_u *right; 
} internal; 
,double data[2] ; 
}; 
那么 ， 每 个 节点 就 只 需要 16 个 字 节 。 如 果 n 是 一 个 指针 ， 指 向 union node_u * 类 型 的 节 
点 ， 我 们 用 n-> data[0] 和 n-> data[1] 来 引用 叶子 节点 的 数据 ， 而 用 n-> internal . 
left 和 n-> internal.right 来 引用 内 部 节点 的 孩子 。 
不 过 ， 如 果 这 样 编码 ， 就 没有 办 法 来 确定 一 个 给 定 的 节点 到 底 是 叶子 节点 ， 还 是 内 部 
节点 。 通 常 的 方法 是 引入 一 个 枚 举 类 型 ， 定 义 这 个 联合 中 可 能 的 不 同 选择 ， 然 后 再 创建 一 
个 结构 ， 包 含 一 个 标签 字段 和 这 个 联合 : 


typedef enum { N_LEAF, N_INTERNAL } nodetype_t; 


struct node_t { 
nodetype_t type; 
union { 
struct { 
struct node_t *]left; 
struct node_t *right; 
} internal; 
double data[2]; 
} info; 


二 
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这 个 结构 总 共 需 要 24 个 字 节 : type 是 4 个 字 节 ，info.internal.left 和 info.internal. 
right 各 要 8 个 字 节 , 或 者 是 info.data 要 16 个 字 节 。 我 们 后 面 很 快 会 谈 到 ， 在 字段 
type 和 联合 的 元 素 之 间 需 要 4 个 字 节 的 填充 ， 所 以 整个 结构 大 小 为 4 十 4 十 16 二 24。 在 这 
种 情况 中 ， 相 对 于 给 代码 造成 的 麻烦 ， 使 用 联合 带 来 的 节省 是 很 小 的 。 对 于 有 较 多 字段 的 
数据 结构 ， 这 样 的 节省 会 更 加 吸引 人 。 

联合 还 可 以 用 来 访问 不 同 数据 类 型 的 位 模式 。 例 如 ， 假 设 我 们 使 用 简单 的 强制 类 型 转 
换 将 一 个 double 类 型 的 值 d 转换 为 unsigned long 类 型 的 值 u: 

unsigned Long u = (unsigned long) di 


值 u 会 是 a 的 整数 表示 。 除 了 a 的 值 为 0.0 的 情况 以 外 ，u 的 位 表示 会 与 a 的 很 不 一 样 。 
再 看 下 面 这 段 代 码 ， 从 一 个 double 产生 一 个 unsigned long 类 型 的 值 : 
unsigned long double2bits(double d) { 
union { 
double di 
unsigned long u; 
} temp; 
temp.d = d; 
return temp.u; 

}; 

在 这 段 代码 中 ， 我 们 以 一 种 数据 类 型 来 存储 联合 中 的 参数 ， 又 以 另 一 种 数据 类 型 来 访 
问 它 。 结 果 会 是 u 具 有 和 a 一 样 的 位 表示 ， 包括 符 号 位 字段 、 指 数 和 尾数 ， 如 3. 11 节 中 
描述 的 那样 。u 的 数值 与 a 的 数值 没有 任何 关系 ， 除 了 a 等 于 0. 0 的 情况 。 

当 用 联合 来 将 各 种 不 同 大 小 的 数据 类 型 结合 到 一 起 时 ， 字 节 顺 序 问题 就 变 得 很 重要 
了 。 例 如 ， 假 设 我 们 写 了 一 个 过 程 ， 它 以 两 个 4 字 节 的 unsigned 的 位 模式 ， 创 建 一 个 8 
字 节 的 double: 

double uu2double(unsigned word0, unsigned word1) 

{ 


union { 
double d; 
unsigned u[2]; 
} temp; 


temp.u[0] = word0; 
temp.u[1] = wordl; 
return temp.d; 
} 
在 x86-64 这 样 的 小 端 法 机 器 上 ， 参 数 word0 是 a 的 低位 4 个 字 节 ， 而 wordl 是 高 位 
4 个 字 节 。 在 大 端 法 机 器 上 ， 这 两 个 参数 的 角色 刚好 相反 。 
ES 练习 题 3. 43 ”假设 给 你 个 任务 ， 检 查 一 下 C 编译 器 为 结构 和 联合 的 访问 产生 正确 的 
代码 。 你 写 了 下 面 的 结构 声明 : 


typedef union { 


StrUet 巧 
long 1u; 
Short. 3: 


char W; 
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} ti1; 
struct +{ 
int a[2]; 
char *p; 
} +t2; 
} u_type; 


你 写 了 一 组 具有 下 面 这 种 形式 的 函数 : 
void get(u_type *up, type *dest) { 
*dest = expr; 

上 
这 组 函数 有 不 一 样 的 访问 表达 式 expr， 而 且 根 据 expr 的 类 型 来 设置 目的 数据 类 型 fype。 
”然后 再 检查 编译 这 些 函 数 时 产生 的 代码 ， 看 看 它们 是 否 与 你 预期 的 一 样 。 

假设 在 这 些 函 数 中 ，up 和 dest 分 别 被 加 载 到 寄存 器 srdi 和 %rsi 中 。 填 写 下 表 中 的 
数据 类 型 zype， 并 用 1 一 3 条 指令 序列 来 计算 表达 式 ， 并 将 结果 存储 到 dest 中 。 





expr type 代码 
UB—>El st long movq (Srdi),%rax 
movgq Srax, (Srsi) 
UB=SEl :Vv 
&up->tl.w 
up->t2.a 


UB=->t2a [uuB=St1au] 


HB-B 














3.9.3 数据 对 齐 


许多 计算 机 系统 对 基本 数据 类 型 的 合法 地 址 做 出 了 一 些 限制 ， 要 求 某 种 类 型 对 象 的 地 
址 必须 是 某 个 值 K( 通 常 是 2、4 或 8) 的 倍数 。 这 种 对 齐 限 制 简化 了 形成 处 理 器 和 内 存 系 统 
之 间接 口 的 硬件 设计 。 例 如 ， 假 设 一 个 处 理 器 总 是 从 内 存 中 取 8 个 字 节 ， 则 地 址 必须 为 8 
的 倍数 。 如 果 我 们 能 保证 将 所 有 的 aouble 类 型 数据 的 地 址 对 齐 成 8 的 倍数 ， 那 么 就 可 以 
用 一 个 内 存 操作 来 读 或 者 写 值 了 。 否 则 ， 我 们 可 能 需要 执行 两 次 内 存 访问 ， 因 为 对 象 可 能 
被 分 放 在 两 个 8 字 节 内 存 块 中 。 

无 论 数 据 是 否 对 齐 ，x86-64 硬件 都 能 正确 工作 。 不 过 ，Intel 还 是 建议 要 对 齐 数 据 以 
提高 内 存 系统 的 性 能 。 对 齐 原则 是 任何 K 字 节 的 基本 对 象 的 地 址 必须 是 KK 的 倍数 。 可 以 
看 到 这 条 原则 会 得 到 如 下 对 齐 : 








类 型 





char 





short 


| 
int,float 
long, double, char* 
确保 每 种 数据 类 型 都 是 按照 指定 方式 来 组 织 和 分 配 ， 即 每 种 类 型 的 对 象 都 满足 它 的 对 
齐 限 制 ， 就 可 保证 实施 对 齐 。 编 译 器 在 汇编 代码 中 放 人 命令 ， 指 明 全 局 数据 所 需 的 对 齐 。 
例如 ，3. 6. 8 节 开 始 的 跳 转 表 的 汇编 代码 声明 在 第 2 行 包 含 下 面 这 样 的 命令 : 
.align 8 


这 就 保证 了 它 后 面 的 数据 (在 此 ， 是 跳 转 表 的 开始 ) 的 起 始 地 址 是 8 的 倍数 。 因 为 每 个 
表 项 长 8 个 字 节 ， 后 面 的 元 素 都 会 遵守 8 字 节 对 齐 的 限制 。 

对 于 包含 结构 的 代码 ， 编 译 器 可 能 需要 在 字段 的 分 配 中 插入 间隙 ， 以 保证 每 个 结构 元 
素 都 满足 它 的 对 齐 要 求 。 而 结构 本 身 对 它 的 起 始 地 址 也 有 一 些 对 齐 要 求 。 

比如 说 ， 考 虑 下 面 的 结构 声明 ; 


struct S1 { 








wi-| 天 











in I 
char E4 
int J]; 
J 
假设 编译 器 用 最 小 的 9 字 节 分 配 ， 画 出 图 来 是 这 样 的 : 
偏 移 0 4 5 9 
内 容 


它 是 不 可 能 满足 字段 1( 偏 移 为 0) 和 j( 偏 移 为 5) 的 4 字 节 对 齐 要 求 的 。 取 而 代 之 地 ， 编 译 
器 在 字段 c 和 j 之 间 插 入 一 个 3 字 节 的 间隙 (在 此 用 蓝 色 阴 影 表 示 ): 

偏 移 0 如 宇 8 12 

内 容 [ |- | 
结果 ，j 的 偶 移 量 为 8， 而 整个 结构 的 大 小 为 12 字 节 。 此 外 ， 编 译 器 必须 保证 任何 
struct S1 * 类 型 的 指针 p 都 满足 4 字 节 对 齐 。 用 我 们 前 面 的 符号 ， 设 指针 p 的 值 为 x,。 
那么 ，zs 必 须 是 4 的 倍数 。 这 就 保证 了 p-> i( 地 址 ze) 和 Pp-> j( 地 址 zx, 十 8) 都 满足 它们 
的 4 字 节 对 齐 要 求 。 

另外 ， 编 译 器 结构 的 末尾 可 能 需要 一 些 填充 ， 这样 结构 数组 中 的 每 个 元 素 都 会 满足 它 

的 对 齐 要 求 。 例 如 ， 考 虑 下 面 这 个 结构 声明 : 


struct S2 { 
dint ds 
int j; 
char. & 
上 


如 果 我 们 将 这 个 结构 打包 成 9 个 字 节 ， 只 要 保证 结构 的 起 始 地 址 满足 4 字 节 对 齐 要 
求 ， 我 们 仍然 能 够 保证 满足 字段 i 和 j 的 对 齐 要 求 。 不 过 ， 考 虑 下 面 的 声明 , 
struct S2 d[4] ; 
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分 配 9 个 字 节 ， 不 可 能 满足 a 的 每 个 元 素 的 对 齐 要 求 ， 因 为 这 些 元 素 的 地 址 分 别 为 za。、zs 十 9、 
za 十 18 和 za 十 27。 相 反 ， 编 译 器 会 为 结构 S2 分 配 12 个 字 节 ， 最 后 3 个 字 节 是 浪费 的 空间 : 





这 样 一 来 ，G 的 元 素 的 地 址 分 别 为 zs、za 十 12、xzs 十 24 和 zs 十 36。 只 要 zs 是 4 的 倍数 ， 
所 有 的 对 齐 限 制 就 都 可 以 满足 了 。 
二 练习 题 3. 44 对 下 面 每 个 结构 声明 ， 确 定 每 个 字段 的 偏 移 量 、 结 构 总 的 大 小 ， 以 及 
在 x86-64 下 它 的 对 齐 要求 : 
A Striet Pl 1 int i share; nt j; char dy }» 




















B; Steuct Pat Int Ly ehar e; ehar ds long 1 }; 

C. struct P3 { short w[3] ; char c[3] }; 

D, struct P4 { short w[5] ; char *c[3] }; 

E. struct P5 { struct P3 a[2]; struct P2 七 二; 
请 练习 题 3.45 ”对 于 下 列 结构 声明 回答 后 续 问题 : 





struct { 
char *a; 
Short 53 
double [ob 
char d; 
float e; 
char Es 
long g; 
int h; 

} rec; 


A. 这 个 结构 中 所 有 的 字段 的 字 节 偏 移 量 是 多 少 ? 

B. 这 个 结构 总 的 大 小 是 多 少 ? 

C. 重新 排列 这 个 结构 中 的 字段 ， 以 最 小 化 浪费 的 空间 ， 然 后 再 给 出 重 排 过 的 结构 的 
字 节 偏 移 量 和 总 的 大 小 。 


旁 注 | 强制 对 齐 的 情况 

对 于 大 多 数 x86-64 指令 来 说 ， 保 持 数据 对 齐 能 够 提高 效率 ， 但 是 它 不 会 影响 程序 
的 行为 。 另 一 方面 ， 如 果 数 据 没 有 对 齐 ， 某 些 型 号 的 Intel 和 AMD 处 理 器 对 于 有 些 实 
现 多 媒体 操作 的 SSE 指令 ， 就 无 法 正确 执行 。 这 些 指令 对 16 字 节 数据 块 进行 操作 ， 在 
SSE 单元 和 内 存 之 间 传 送 数 据 的 指令 要 求 内 存 地 址 必须 是 16 的 倍数 。 任 何 试图 以 不 满 
足 对 齐 要 求 的 地 址 来 访问 内 存 都 会 导致 异常 (参见 8. 1 节 )， 默 认 的 行为 是 程序 终止 。 

因此 ， 任 何 针 对 x86-64 处 理 器 的 编译 器 和 运行 时 系统 都 必须 保证 分 配 用 来 保存 可 能 会 被 
SSE 寄存 器 读 或 写 的 数据 结构 的 内 存 ， 都 必须 满足 16 字 节 对 齐 。 这 个 要 求 有 两 个 后 果 : 

@ 任何 内 存 分 配 函 数 (alloca、malloc、calloc 或 realloc) 生 成 的 块 的 起 始 地 址 

都 必须 是 16 的 倍数 。 

@ 大 多 数 函数 的 栈 帧 的 边界 都 必须 是 16 字 节 的 倍数 。( 这 个 要 求 有 一 些 例外 。) 

较 近 版 本 的 x86-64 处 理 器 实现 了 AVX 多 媒体 指令 。 除 了 提供 SSE 指令 的 超 集 ， 支 
持 AVX 的 指令 并 没有 强制 性 的 对 齐 要 求 。 








3. 10 在 机 器 级 程序 中 将 控制 与 数据 结合 起 来 


到 目前 为 止 ， 我 们 已 经 分 别 讨论 机 器 级 代码 如 何 实现 程序 的 控制 部 分 和 如 何 实现 不 同 
的 数据 结构 。 在 本 节 中 ， 我 们 会 看 看 数据 和 控制 如 何 交 互 。 首 先 ， 深 入 审视 一 下 指针 ， 它 
是 C 编程 语言 中 最 重要 的 概念 之 一 ， 但 是 许多 程序 员 对 它 的 理解 都 非常 浅显 。 我 们 复习 符 
号 调试 器 GDB 的 使 用 ， 用 它 仔细 检查 机 器 级 程序 的 详细 运行 。 接 下 来 ， 看 看 理解 机 器 级 
程序 如 何 帮助 我 们 研究 缓冲 区 溢出 ， 这 是 现实 世界 许多 系统 中 一 种 很 重要 的 安全 漏洞 。 最 
后 ， 查 看 机 器 级 程序 如 何 实现 函数 要 求 的 栈 空 间 大 小 在 每 次 执行 时 都 可 能 不 同 的 情况 。 


3. 10.1 理解 指针 


指针 是 C 语言 的 一 个 核心 特色 。 它 们 以 一 种 统一 方式 ， 对 不 同 数据 结构 中 的 元 素 产 生 
引用 。 对 于 编程 新 手 来 说 ， 指 针 总 是 会 带 来 很 多 的 困惑 ， 但 是 基本 概念 其 实 非 常 简单 。 在 
此 ， 我 们 重点 介绍 一 些 指针 和 它们 映射 到 机 器 代码 的 关键 原则 。 

@ 每 个 指针 都 对 应 一 个 类 型 。 这 个 类 型 表明 该 指针 指向 的 是 哪 一 类 对 象 。 以 下 面 的 指 
针 声 明 为 例 : 
int *ip; 
char **cpp; 
变量 ip 是 一 个 指向 int 类 型 对 象 的 指针 ,而 cpp 指针 指向 的 对 象 自身 就 是 一 个 指向 
char 类 型 对 象 的 指针 。 通 常 ， 如 果 对 象 类 型 为 人 那么 指针 的 类 型 为 了 x* 。 特 殊 的 
void * 类 型 代表 通用 指针 。 比 如 说 ，malloc 函数 返回 一 个 通用 指针 ， 然 后 通过 显 
式 强 制 类 型 转换 或 者 赋值 操作 那样 的 隐 式 强制 类 型 转换 ， 将 它 转换 成 一 个 有 类 型 的 
指针 。 指 针 类 型 不 是 机 器 代码 中 的 一 部 分 ; 它们 是 C 语言 提供 的 一 种 抽象 ， 帮 助 程 
序 员 避免 寻 址 错误 。 

每 个 指针 都 有 一 个 值 。 这 个 值 是 某 个 指定 类 型 的 对 象 的 地 址 。 特 殊 的 NULL(0) 值 表 
示 该 指针 没有 指向 任何 地 方 。 

指针 用 “& 运算 符 创 建 。 这 个 运算 符 可 以 应 用 到 任何 lvalue 类 的 C 表达 式 上 ， 
lvalue 意 指 可 以 出 现在 赋值 语句 左边 的 表达 式 。 这 样 的 例子 包括 变量 以 及 结构 、 
联合 和 数组 的 元 素 。 我 们 已 经 看 到 ， 因 为 leaq 指令 是 设计 用 来 计算 内 存 引用 的 地 
址 的 ，& 运算 符 的 机 器 代码 实现 常常 用 这 条 指令 来 计算 表达 式 的 值 。 

* 操作 符 用 于 间接 引用 指针 。 其 结果 是 一 个 值 ， 它 的 类 型 与 该 指针 的 类 型 一 致 。 间 
接 引 用 是 用 内 存 引 用 来 实现 的 ， 要么 是 存储 到 一 个 指定 的 地 址 ， 要 么 是 从 指定 的 地 
址 读 取 。 

数组 与 指针 紧密 联系 。 一 个 数组 的 名 字 可 以 像 一 个 指针 变量 一 样 引 用 (但 是 不 能 修 
改 )。 数 组 引用 (例如 a[3]) 与 指针 运算 和 间接 引用 (例如 * (a+ 3)) 有 一 样 的 效果 。 
数组 引用 和 指针 运算 都 需要 用 对 象 大 小 对 偏 移 量 进行 伸缩 。 当 我 们 写 表达 式 p+ i， 
这 里 指针 p 的 值 为 bp， 得 到 的 地 址 计算 为 p 十 Li， 这 里 工 是 与 p 相关 联 的 数据 类 
型 的 大 小 。 

将 指针 从 一 种 类 型 强制 转换 成 另 一 种 类 型 ， 只 政变 它 的 类 型 ， 而 不 改变 它 的 值 。 强 
制 类 型 转换 的 一 个 效果 是 改变 指针 运算 的 伸缩 。 例 如 ， 如 果 p 是 一 个 char * 类 型 
的 指针 ， 它 的 值 为 p， 那 么 表达 式 (int * )p+ 7 计算 为 p 十 28, 而 (int * ) (p+ 7) 
计算 为 p 十 7。( 回 想 一 下 ， 强 制 类 型 转换 的 优先 级 高 于 加 法 。) 
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e 指针 也 可 以 指向 函数 。 这 提供 了 一 个 很 强大 的 存储 和 向 代码 传递 引用 的 功能 ， 这 些 引 用 
可 以 被 程序 的 某 个 其 他 部 分 调用 。 例 如 ， 如 果 我 们 有 一 个 函数 ， 用 下 面 这 个 原型 定义 ， 


int fun(int x, int *p); 

然后 ， 我 们 可 以 声明 一 个 指针 fp， 将 它 赋 值 为 这 个 函数 ， 代 码 如 下 
int (*fp) (int, int *); 

fp = fun; 

然后 用 这 个 指针 来 调用 这 个 函数 : 

int y = 1; 

int result = fp(3, &y); 


函数 指针 的 值 是 该 函数 机 器 代码 表示 中 第 一 条 指令 的 地 址 。 


6 二 = 攻 疏 LE 二 : 滑 ”了 酒 数 指针 
函数 指针 声明 的 语法 对 程序 员 新 手 来 说 特别 难以 理解 。 对 于 以 下 声明: 
int (*f) (int*); 


要 从 里 (从 “f” 开 始 ) 往 外 读 。 因 此 ， 我 们 看 到 像 “(*f)” 表 明 的 那样 ，f 是 一 个 指针 ; 
而 “(*f) (intx )” 表 明王 是 一 个 指向 函数 的 指针 ， 这 个 函数 以 一 个 int* 作为 参数 。 
最 后 ， 我 们 看 到 ， 它 是 指向 以 int * 为 参数 并 返回 int 的 函数 的 指针 。 

xf 两 边 的 括号 是 必需 的 ， 否 则 声明 变 成 

int *f(int*); 
它 会 被 解读 成 

(int *) f(int*); 
也 就 是 说 ， 它 会 被 解释 成 一 个 函数 原型 ， 声 明了 一 个 函数 f， 它 以 一 个 int * 作为 参数 
并 返回 一 个 lob ea 

Kernighan 和 Ritchie [61，5. 12 节 ] 提 供 了 一 个 有 关 阅 读 C 声 明 的 很 有 帮助 的 教程 。 


3.10.2 应 用 : 使 用 GDB 调试 器 


GNU 的 调试 器 GDB 提供 了 许多 有 用 的 特性 ， 支 持 机 器 级 程序 的 运行 时 评估 和 分 析 。 
对 于 本 书 中 的 示例 和 练习 ， 我 们 试图 通过 阅读 代码 ， 来 推断 出 程序 的 行为 。 有 了 GDB， 
可 以 观察 正在 运行 的 程序 ， 同 时 又 对 程序 的 执行 有 相当 的 控制 ， 这 使 得 研究 程序 的 行为 变 
为 可 能 。 

图 3-39 给 出 了 一 些 GDB 命令 的 例子 ， 帮 助 研 究 机 器 级 x86-64 程序 。 先 运行 OBJ- 
DUMP 来 获得 程序 的 反 汇编 版 本 ， 是 很 有 好 处 的 。 我 们 的 示例 都 基于 对 文件 prog 运行 
GDB， 程 序 的 描述 和 反 汇 编 见 3. 2. 3 节 。 我 们 用 下 面 的 命令 行 来 启动 GDB: 

linux> gdb prog 


通常 的 方法 是 在 程序 中 感 兴趣 的 地 方 附 近 设 置 断 点 。 断 点 可 以 设置 在 函数 入 口 后 面 ， 
或 是 一 个 程序 的 地 址 处 。 程 序 在 执行 过 程 中 遇 到 一 个 断 点 时 ， 程 序 会 停 下 来 ， 并 将 控制 返 
回 给 用 户 。 在 断 点 处 ， 我 们 能 够 以 各 种 方式 查看 各 个 寄存 器 和 内 存 位 置 。 我 们 也 可 以 单 步 
跟踪 程序 ， 一 次 只 执行 几 条 指令 ， 或 是 前 进 到 下 一 个 断 点 。 




















命令 效果 
开始 和 停止 
quit 退出 GDB 
run 运行 程序 (在 此 给 出 命令 行 参数 ) 
RL 停止 程序 
break multstore 在 函数 multstore 人 口 处 设置 断 点 
break * 0x400540 在 地 址 0x400540 处 设置 断 点 
Qelete 1 删除 断 点 1 
delete 删除 所 有 断 点 
执行 
stepi 执行 1 条 指令 
stepi 4 执行 4 条 指令 
nexti 类 似 于 stepi, 但 以 函数 调用 为 单位 
continue 继续 执行 
finish . 运行 到 当前 函数 返回 
检查 代码 
disas 反 汇 编 当 前 函数 











反 汇 编 消 数 multstore 

反 汇 编 位 于 地 址 0x400544 附近 的 函数 
反 汇 编 指 定 地 址 范围 内 的 代码 

以 十 六 进 制 输出 程序 计数 器 的 值 


disas multstore 
disas 0x400544 
disas 0x400540, 0x40054d 


















print /x $rip 
检查 数据 


print $rax 








以 十 进 制 输出 srax 的 内 容 
以 十 六 进 制 输出 srax 的 内 容 
以 二 进 制 输出 srax 的 内 容 
输出 0x100 的 十 进 制 表示 
输出 555 的 十 六 进 制 表示 


print /x $rax 
print /t $rax 
print Ox100 
BEint /x 555 








print /x (Srsp+ 8) 以 十 六 进 制 输出 srsp 的 内 容 加 上 8 
print *(long *) Ox7fffffffe818 输出 位 于 地 址 0x7fffffffe818 的 长 整数 
print *(long *) (Srsp+ 8) 输出 位 于 地 址 srsp 十 8 处 的 长 整数 
x/2g 0x7fffffffe818 检查 从 地 址 0x7fffffffe818 开始 的 双 (8 字 节 ) 字 
x/20bmultstore 检查 函数 multstore 的 前 20 个 字 节 
有 用 的 信息 
info frame 有 关 当 前 栈 帧 的 信息 
info registers 所 有 寄存 器 的 值 
help 获取 有 关 GDB 的 信息 











图 3-39 GDB 命令 示例 。 说 明了 一 些 GDB 支持 机 器 级 程序 调试 的 方式 
正如 我 们 的 示例 表明 的 那样 ，GDB 的 命令 语法 有 点 用 涩 ， 但 是 在 线 帮 助 信 息 ( 用 GDB 
的 help 命令 调用 ) 能 克服 这 些 毛 病 。 相 对 于 使 用 命令 行 接口 来 访问 GDB， 许 多 程序 员 更 
愿意 使 用 DDD， 它 是 GDB 的 一 个 扩展 ， 提 供 了 图 形 用 户 界 面 。 


3. 10.3 ”内 存 越界 引用 和 缓冲 区 溢 


我 们 已 经 看 到 ，C 对 于 数组 引用 不 进行 任何 边界 检查 ， 而 且 局 部 变量 和 状态 信息 ( 例 
如 保存 的 寄存 器 值 和 返回 地 址 ) 都 存放 在 栈 中 。 这 两 种 情况 结合 到 一 起 就 能 导致 严重 的 程 
序 错 误 ， 对 越界 的 数组 元 素 的 写 操作 会 破坏 存储 在 栈 中 的 状态 信息 。 当 程序 使 用 这 个 被 破 
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坏 的 状态 ， 试 图 重新 加 载 寄存 器 或 执行 ret 指令 时 ， 就 会 出 现 很 严重 的 错误 
_ 种 畦 别 党 见 的 状 大 破坏 称 为 绪 冲 区 小 由 《baler owerflow)。 通常 ， 在 栈 中 分 配 某 个 
字符 数组 来 保存 一 个 字符 串 ， 但 是 字符 串 的 长 度 超出 了 为 数组 分 配 的 空间 。 下 面 这 个 程序 
示例 就 说 明了 这 个 问题 : 
/* Implementation of library function gets() */ 
char *gets(char *s) 
{ 
jn Gs 
char *dest = s; 
While ((c = getchar()) != '\n' && c != EOF) 
*dest++ = c; 
if (c == EOF && dest == s) 
/* No characters read */ 
return NULL ; 
*dest++ = '\0'; /* Terminate string */ 
return s; 


} 


/* Read input line and write it back */ 
void echo() 


{ 
char buf[8]; /* Way too small! */ 
gets (buf); 
puts (buf); 

} 


前 面 的 代码 给 出 了 库 函 数 gets 的 一 个 实现 ,用 来 说 明 这 个 函数 的 严重 问题 。 它 从 标准 
输入 读 入 一 行 ,在 遇 到 一 个 回 车 换行 字符 或 某 个 错误 情况 时 停止 。 它 将 这 个 字符 串 复 制 到 
参数 s 指明 的 位 置 ,并 在 字符 串 结尾 加 上 null 字符 。 在 函数 echo 中 ,我 们 使 用 了 gets， 
这 个 函数 只 是 简单 地 从 标准 输入 中 读 入 一行 ， 再 把 它 回 送 到 标准 输出 。 

gets 的 问题 是 aa 间 。 在 echo 示 
例 中 ， 我 们 故意 将 缓冲 区 设 得 非常 小 8 个 字 节 长 。 任 何 长 度 超过 7 个 字符 的 字符 
串 都 会 导致 写 越界 。 

检查 GCC 为 echo 产生 的 汇编 代码 ， 看 看 栈 是 如 何 组 织 的 


void echo() 





1 echo: 

2 subq $24,%rsp Allocate 24 bytes on stack 
3 movg %rsp, %rdi Compute buf as %rsp 

4 call gEets Call gets 

5 movd %rsp, %rdi Compute buf as %rsp 

6 call puts Call puts 

7 addq $24, %rsp Deallocate stack space 

8 ret Return 


图 3-40 画 出 了 echo 执行 时 栈 的 组 织 。 该 程序 把 栈 指针 减 去 了 24( 第 2 行 )， 在 栈 上 分 
配 了 24 个 字 节 。 字 符 数 组 puf 位 于 栈 顶 ， 可 以 看 到 ,srsp 被 复制 到 %rqi 作为 调用 gets 
和 puts 的 参数 。 这 个 调用 的 参数 和 存储 的 返回 指针 之 间 的 16 字 节 是 未 被 使 用 的 。 只 要 用 
户 输入 不 超过 7 个 字符 ，gets 返回 的 字符 串 ( 包 括 结尾 的 nul1) 就 能 够 放 进 为 puf 分 配 的 





空间 里 。 不 过 ， 长 一 些 的 字符 串 就 会 导致 gets 覆盖 栈 上 存储 的 某 些 信息 。 随 着 字符 串 变 
长 ， 下 面 的 信息 会 被 破坏 : 














输入 的 字符 数量 附加 的 被 破坏 的 状态 
0~7 无 
| 9~23 未 被 使 用 的 栈 空间 








24~31 返回 地 址 
32 十 caller 中 保存 的 状态 


字符 串 到 23 个 字符 之 前 都 没有 严重 
的 后 果 ， 但 是 超过 以 后 ， 返 回 指针 的 值 以 si 
及 更 多 可 能 的 保存 状态 会 被 破坏 。 如 果 存 的 栈 帧 
储 的 返回 地 址 的 值 被 破坏 了 ， 那 么 ret 指 
令 ( 第 8 行 ) 会 导致 程序 跳 转 到 一 个 完全 意 


echo 


想不到 的 位 置 。 如 果 只 看 C 代码 ， 根 本 就 ”的 栈 帧 
不 可 能 看 出 会 有 上 面 这 些 行为 。 只 有 通过 CT | = WO 
研究 机 器 代码 级 别 的 程序 才能 理解 像 图 3-40 echo 函数 的 栈 组 织 。 字 符 数组 buf 就 在 保存 
gets 这 样 的 函数 进行 的 内 存 越界 写 的 ee 对 buf 的 越界 写 会 破坏 程序 的 
影响 。 
我 们 的 echo 代码 很 简单 ， 但 是 有 点 太 随 意 了 。 更 好 一 点 的 版 本 是 使 用 fgets 函数 ， 
它 包括 一 个 参数 ， 限 制 待 读 和 人 的 最 大 字 节 数 。 家 庭 作 业 3. 71 要 求 你 写 出 一 个 能 处 理 任意 
长 度 输入 字符 串 的 echo 函数 。 通 常 ， 使 用 gets 或 其 他 任何 能 导致 存储 溢出 的 函数 ， 都 
是 不 好 的 编程 习惯 。 不 幸 的 是 ， 很 多 常用 的 库 函 数 ， 包 括 strcpy、strcat 和 sprintf， 
都 有 一 个 属性 不 需要 告诉 它们 目标 缓冲 区 的 大 小 ， 就 产生 一 个 字 节 序列 [97]。 这 样 的 
情况 就 会 导致 缓冲 区 溢出 漏洞 。 
局 位 、 练 习题 3. 46 图 3-41 是 一 个 函数 的 (不 太 好 的 ) 实 现 ， 这 个 函数 从 标准 输入 读 入 一 行 ， 
将 字符 串 复 制 到 新 分 配 的 存储 中 ， 并 返回 一 个 指向 结果 的 指针 。 
考虑 下 面 这 样 的 场景 。 调 用 过 程 get_line， 返 回 地 址 等 于 0x400076， 寄 存 器 
%rbx 等 于 0x0123456789ABCDEF。 输 入 的 字符 串 为 “0123456789012345678901234”。 程 
序 会 因为 段 错误 (segmentation fault) 而 中 止 。 运行 GDB， 确 定 错误 是 在 执行 get_1line 
的 ret 指令 时 发 生 的 。 
A. 填写 下 图 ， 尺 可 能 多 地 说 明 在 执行 完 反 汇编 代码 中 第 3 行 指令 后 栈 的 相关 信息 。 
在 右边 标注 出 存储 在 栈 中 的 数字 含意 (例如 “返回 地 址 ?)， 在 方 框 中 写 出 它们 的 十 
六 进 制 值 (如 果 知 道 的 话 )。 每 个 方 框 都 代表 8 个 字 节 。 指 出 srsp 的 位 置 。 记 住 ， 
字符 0~9 的 ASCII 代码 是 0x3 一 0x39。 








返回 地 址 <— rsp+24 

















00 00 00 00 00 40 00 76| 返回 地 址 











B. 修改 你 的 图 ， 展 现 调 用 gets 的 影响 (第 5 行 )。 
C. 程序 应 该 试图 返回 到 什么 地 址 ? 
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D. 当 get_line 返回 时 ， 哪 个 ( 些 ) 寄 存 器 的 值 被 破坏 了 ? 
E. 除了 可 能 会 缓冲 区 溢出 以 外 ，get line 的 代码 还 有 哪 两 个 错误 ? 





/* This is very low-quality code. 
It is intended to illustrate bad programming practices. 

















See Practice Problem 3.46. */ 
char *get_line() 
{ 
char buf [4] ; 
char *result; 
gets(buf) ; 
result = malloc(strlen(buf)); 
strcpy(result, buf); 
return result; 
} 
a ) C 代 码 
char *get_line() 
1 0000000000400720 <get_line>: 
2 400720: 53 push  %rbx 
3 400721: 48 83 ec 10 sub $0x10,%rsp 
Diagram stack at this point 
4 400725: 48 89 e7 mov %rsp,%rdi 
5 400728: e8 73 ff ff ff callq 4006a0 <gets> 
Modify diagram to show stack contents at this point 
| dh” Se OE | 








b ) 对 gets 调 用 的 反 汇编 
图 3-41 练习 题 3. 46 的 C 和 反 汇 编 代码 


缓冲 区 溢出 的 一 个 更 加 致命 的 使 用 就 是 让 程序 执行 它 本 来 不 愿意 执行 的 函数 。 这 是 一 
种 最 常见 的 通过 计算 机 网 络 攻击 系统 安全 的 方法 。 通 常 ， 输 入 给 程序 一 个 字符 串 ， 这 个 字 
符 串 包含 一 些 可 执行 代码 的 字 节 编码 ， 称 为 攻击 代码 (exploit code) ， 另 外 ， 还 有 一 些 字 节 
会 用 一 个 指向 攻击 代码 的 指针 覆盖 返回 地 址 。 那 么 ， 执 行 ret 指令 的 效果 就 是 跳 转 到 攻击 
代码 。 

”在 一 种 攻击 形式 中 ， 攻 击 代码 会 使 用 系统 调用 启动 一 个 shell 程序 ， 给 攻击 者 提供 一 
组 操作 系统 函数 。 在 另 一 种 攻击 形式 中 ， 攻 击 代码 会 执行 一 些 未 授权 的 任务 ， 修 复 对 栈 的 
破坏 ， 然 后 第 二 次 执行 ret 指令 ，( 表 面 上 ) 正 常 返回 到 调用 者 。 

让 我 们 来 看 一 个 例子 ,在 1988 年 11 月 ， 著 名 的 Internet 蠕虫 病毒 通过 Internet 以 四 
种 不 同 的 方法 获取 对 许多 计算 机 的 访问 。 一 种 是 对 finger 守护 进程 fingerd 的 缓冲 区 洲 
出 攻击 ，fingerd 服务 FINGER 命令 请 求 。 通 过 以 一 个 适当 的 字符 串 调用 FINGER ， 里 
虫 可 以 使 远程 的 守护 进程 缓冲 区 溢出 并 执行 一 段 代 码 ， 让 蚂 虫 访问 远程 系统 。 一 旦 蠕虫 获 
得 了 对 系统 的 访问 ， 它 就 能 自我 复制 ， 几 乎 完全 地 消耗 掉 机 器 上 所 有 的 计算 资源 。 结 果 ， 
在 安全 专家 制定 出 如 何 消除 这 种 蠕虫 的 方法 之 前 ， 成 百 上 千 的 机 器 实际 上 都 次 痪 了 。 这 种 
蠕虫 的 始作俑者 最 后 被 抓 住 并 被 起 诉 。 时 至 今日 ， 人 们 还 是 不 断 地 发 现 遭 受 缓冲 区 溢出 攻 
击 的 系统 安全 漏洞 ， 这 更 加 突显 了 仔细 编写 程序 的 必要 性 。 任 何 到 外 部 环境 的 接口 都 应 该 
是 “防弹 的 ”， 这 样 ， 外 部 代理 的 行为 才 不 会 导致 系统 出 现 错误 。 











| 旁 注 | 蠕虫 和 病毒 

蠕 时 和 病毒 都 试图 在 计算 机 中 传播 它们 自己 的 代码 段 。 正 如 Spafford[105] 所 述 ， 
蠕虫 (worm) 可 以 自己 运行 ， 并 且 能 够 将 自己 的 等 效 副本 传播 到 其 他 机 器 。 病 毒 (virus) 
能 将 自己 添加 到 包括 操作 系统 在 内 的 其 他 程序 中 ， 但 它 不 能 独立 运行 。 在 一 些 大 众 媒体 
中 , “病毒 ”用 来 指 各 种 在 系统 间 传 播 攻 击 代码 的 策略 ， 所 以 你 可 能 会 听 到 人 们 把 本 来 
应 该 叫做 “蠕虫 ”的 东西 称 为 “病毒 ”。 


3. 10. 4 ”对抗 缓冲 区 溢出 攻击 


缓冲 区 溢出 攻击 的 普 凯 发 生 给 计算 机 系统 造成 了 许多 的 麻烦 。 现 代 的 编译 器 和 操作 系 
统 实现 了 很 多 机 制 ， 以 避免 遭受 这 样 的 攻击 ， 限 制 人 侵 者 通过 缓冲 区 溢出 攻击 获得 系统 控 
制 的 方式 。 在 本 节 中 ， 我 们 会 介绍 一 些 Linux 上 最 新 GCC 版 本 所 提供 的 机 制 。 

1. 栈 随 机 化 

为 了 在 系统 中 插 人 攻击 代码 ， 攻 击 者 既 要 插 和 代码， 也 要 插 人 指向 这 段 代码 的 指针 ， 
这 个 指针 也 是 攻击 字符 串 的 一 部 分 。 产 生 这 个 指针 需要 知道 这 个 字符 串 放置 的 栈 地 址 。 在 
过 去 ， 程 序 的 栈 地 址 非常 容易 预测 。 对 于 所 有 运行 同样 程序 和 操作 系统 版 本 的 系统 来 说 ， 
在 不 同 的 机 器 之 间 ， 栈 的 位 置 是 相当 固定 的 。 因 此 ， 如 果 攻 击 者 可 以 确定 一 个 常见 的 Web 
服务 器 所 使 用 的 栈 空间 ， 就 可 以 设计 一 个 在 许多 机 器 上 都 能 实施 的 攻击 。 以 传染 病 来 打 个 
比方 ， 许 多 系统 都 容易 受到 同一 种 病毒 的 攻击 ， 这 种 现象 常 被 称 作 安 全 单一 化 (security 
monoculture)[ 96 |]。 

栈 随 机 化 的 思想 使 得 栈 的 位 置 在 程序 每 次 运行 时 都 有 变化 。 因 此 ， 即 使 许多 机 器 都 运 
行 同样 的 代码 ， 它 们 的 栈 地 址 都 是 不 同 的 。 实 现 的 方式 是 : 程序 开始 时 ， 在 栈 上 分 配 一 段 
0~n 字 节 之 间 的 随机 大 小 的 空间 ， 例如， 使 用 分 配水 数 alloca 在 栈 上 分 配 指定 字 节 数量 
的 空间 。 程 序 不 使 用 这 段 空 间 ， 但 是 它 会 导致 程序 每 次 执行 时 后 续 的 栈 位 置 发 生 了 变化 。 
分 配 的 范围 必须 足够 大 ， 才 能 获得 足够 多 的 栈 地 址 变化 ,但 是 又 要 足够 小 ， 不 至 于 浪费 
程序 太 多 的 空间 。 

下 面 的 代码 是 一 种 确定 “典型 的 ” 栈 地 址 的 方法 : 

int main() { 

long local; 
printf("local at %p\n", &local); 


return 0; 


} 
这 段 代码 只 是 简单 地 打印 出 main 函数 中 局 部 变量 的 地 址 。 在 32 位 Linux 上 运行 这 段 代 码 
10 000 次 ， 这 个 地 址 的 变化 范围 为 0xff7fc59c 到 0xffffq09c， 范 围 大 小 大 约 是 23。 在 
更 新 一 点 儿 的 机 器 上 运行 64 位 Linux， 这 个 地 址 的 变化 范围 为 0x7fff0001b698 到 
0x7ffffffaa4a8， 范 围 大 小 大 约 是 22 。 

在 Linux 系统 中 ， 栈 随机 化 已 经 变 成 了 标准 行为 。 它 是 更 大 的 一 类 技术 中 的 一 种 ， 这 
类 技术 称 为 地 址 空间 布局 随机 化 (Address-Space Layout Randomization) ， 或 者 简称 ASLR 
L99]。 采 用 ASLR， 每 次 运行 时 程序 的 不 同 部 分 ， 包 括 程序 代码 、 库 代码 、 栈 、 全 局 变量 
和 堆 数 据 ， 都 会 被 加 载 到 内 存 的 不 同 区 域 。 这 就 意味 着 在 一 台 机 器 上 运行 一 个 程序 ， 与 在 
其 他 机 器 上 运行 同样 的 程序 ， 它 们 的 地 址 映射 大 相 径 庭 。 这 样 才 能 够 对 抗 一 些 形式 的 
攻击 。 
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然而 ， 一 个 执著 的 攻击 者 总 是 能 够 用 蛮 力 克服 随机 化 ， 他 可 以 反复 地 用 不 同 的 地 址 进 
行 攻击 。 一 种 常见 的 把 戏 就 是 在 实际 的 攻击 代码 前 插入 很 长 一 段 的 nop( 读 作 “no op”，no 
operatioin 的 缩写 ) 指 令 。 执 行 这 种 指令 除了 对 程序 计数 器 加 一 ， 使 之 指向 下 一 条 指令 之 
外 ,没有 任何 的 效果 。 只 要 攻击 者 能 够 猜 中 这 段 序列 中 的 某 个 地 址 ， 程 序 就 会 经 过 这 个 序 
列 ， 到 达 攻 击 代码 。 这 个 序列 常用 的 术语 是 “ 空 操作 雪 构 (nop sled)”[97]， 意思 是 程序 
会 “ 滑 过 ”这 个 序列 。 如 果 我 们 建立 一 个 256 个 字 节 的 nop sled， 那 么 枚 举 25 一 32 768 个 
起 始 地 址 ， 就 能 破解 xz 一 22 的 随机 化 ， 这 对 于 一 个 顽固 的 攻击 者 来 说 ， 是 完全 可 行 的 。 对 
于 64 位 的 情况 ， 要 尝试 枚 举 2* 二 16 777 216 就 有 点 儿 令 人 旦 惧 了 。 我 们 可 以 看 到 栈 随机 
化 和 其 他 一 些 ASLR 技术 能 够 增加 成 功 攻击 一 个 系统 的 难度 ， 因 而 大 大 降低 了 病毒 或 者 里 
虫 的 传播 速度 ,但 是 也 不 能 提供 完全 的 安全 保障 。 
证 练习 题 3.47 在 运行 Linux 版 本 2. 6. 16 的 机 器 上 运行 栈 检查 代码 10 000 次 ， 我 们 获 

得 地 址 的 范围 从 最 小 的 0xffffb754 到 最 大 的 0xffffd754。 

A. 地 址 的 大 概 范围 是 多 大 ? 

B. 如 果 我 们 尝试 一 个 有 128 字 节 nop sled 的 缓冲 区 溢出 ， 要 想 穷 尽 所 有 的 起 始 地 址 ， 

需要 尝试 多 少 次 ? 

2. 栈 破坏 检测 

计算 机 的 第 二 道 防线 是 能 够 检测 到 何 时 栈 已 经 被 破坏 。 我 们 在 echo 函数 示例 (图 3- 
40) 中 看 到 ， 破 坏 通 常 发 生 在 当 超 越 局 部 缓冲 区 的 边界 时 。 在 C 语言 中 ， 没 有 可 靠 的 方法 
来 防止 对 数组 的 越界 写 。 但 是 ， 我 们 能 够 在 发 生 了 越界 写 的 时 候 ， 在 造成 任何 有 害 结 果 之 
前 ， 尝 试 检测 到 它 。 

最 近 的 GCC 版 本 在 产生 的 代码 中 加 
人 了 一 种 栈 保护 者 (stack protector) 机 制 ， 滑 用 关 
来 检测 缓冲 区 越界 。 其 思想 是 在 栈 帧 中 任 “的 栈 帧 
何 局 部 缓冲 区 与 栈 状 态 之 间 存 储 一 个 特殊 
的 金 - 丝 惟 (canary) 值 ?， 如 图 3-42 所 示 | 
[26，97]。 这 个 金 丝 淮 值 ， 也 称 为 哨兵 值 ”的 栈 由 金 丝 稚 
(guard value) ， 是 在 程序 每 次 运行 时 随机 [7Jltelts ale3 N20 < 一 buf = srsp 
产生 的 ， 因 此 ， 攻 击 者 没有 简单 的 办 法 能 图 3-42 echo 函数 具有 栈 保护 者 的 栈 组 织 (在 数组 





<—%rsp+24 








够 知道 它 是 什么 。 在 恢复 寄存 器 状态 和 从 buf 和 保存 的 状态 之 间 放 了 一 个 特殊 的 “ 金 
函数 返回 之 前 ， 程 序 检查 这 个 金 丝 淮 值 是 丝 省 ” 值 。 代 码 检查 这 个 金 丝 省 值 ， 确 定 栈 


否 被 该 函数 的 某 个 操作 或 者 该 函数 调用 的 A 


某 个 函数 的 某 个 操作 改变 了 。 如 果 是 的 ， 那 么 程序 异常 中 止 。 

最 近 的 GCC 版 本 会 试 着 确定 一 个 函数 是 否 容 易 遭 受 栈 溢出 攻击 ， 并 且 自 动 插 入 这 种 溢出 
检测 。 实 际 上 ， 对 于 前 面 的 栈 溢出 展示 ， 我 们 不 得 不 用 命令 行 选项 “-fno-stack-protector?” 
来 阻止 GCC 产生 这 种 代码 。 当 不 用 这 个 选项 来 编译 echo 函数 时 ， 也 就 是 允许 使 用 栈 保 护 
者 ， 得 到 下 面 的 汇编 代码 : 

void echo() 


echo : 
2 subq $24, %rsp Allocate 24 bytes on stack 








日 术语 “ 金 丝 人 省 ” 源 于 历史 上 用 这 种 鸟 在 煤矿 中 察觉 有 毒 的 气体 。 








3 movdq %fs:40, %rax Retrieve canary 

4 movd %rax, 8(%rsp) Store on stack 

5 Xxorl Weax, heax Zero out register 

6 movqg %rsp, %rdi Compute buf as Mrsp 

7 call gets Call gets 

8 movg %rsp, %rdi Compute buf as %rsp 

9 call puts Call puts 

10 movdq 8(%rsp), %rax Retrieve canary 

11 Xorq Xfs:40, Wrax Compare to stored value 
12 je Li9 IF =, goto ok 

13 call __stack_chk_fail Stack corrupted! 

14 9 ok: 

15 addq $24, %rsp Deallocate stack space 
16 ret 


这 个 版 本 的 函数 从 内 存 中 读 出 一 个 值 (第 3 行 )， 再 把 它 存放 在 栈 中 相对 于 srsp 偏 移 
量 为 8 的 地 方 。 指 令 参 数 sfs:40 指明 金 丝 上 省 值 是 用 段 寻 址 (segmented addressing) 从 内 存 
中 读 入 的 ， 段 寻 址 机 制 可 以 追溯 到 80286 的 寻 址 ， 而 在 现代 系统 上 运行 的 程序 中 已 经 很 少 
见 到 了 。 将 金 丝 人 淮 值 存放 在 一 个 特殊 的 段 中 ， 标 志 为 “只 读 ”"”， 这 样 攻击 者 就 不 能 覆盖 存 
储 的 金 丝 淮 值 。 在 恢复 寄存 器 状态 和 返回 前 ， 函 数 将 存储 在 栈 位 置 处 的 值 与 金 丝 和 淮 值 做 比 
较 ( 通 过 第 11 行 的 xorq 指令 )。 如 果 两 个 数 相同 ，xorq 指令 就 会 得 到 0， 函 数 会 按照 正常 
的 方式 完成 。 非 零 的 值 表明 栈 上 的 金 丝 八 值 被 修改 过 ， 那 么 代码 就 会 调用 一 个 错误 处 理 
例 程 。 

栈 保 护 很 好 地 防止 了 缓冲 区 溢出 攻击 破坏 存储 在 程序 栈 上 的 状态 。 它 只 会 带 来 很 小 的 
性 能 损失 ， 特 别 是 因为 GCC 只 在 函数 中 有 局 部 char 类 型 缓冲 区 的 时 候 才 插入 这 样 的 代 
码 。 当 然 ， 也 有 其 他 一 些 方法 会 破坏 一 个 正在 执行 的 程序 的 状态 ， 但 是 降低 栈 的 易 受 攻击 
性 能 够 对 抗 许多 常见 的 攻击 策略 。 

县 对 练习 题 3. 48 ”函数 intlen、len 和 iptoa 提供 了 一 种 很 纠结 的 方式 ， 来 计算 表示 一 
个 整数 所 需要 的 十 进 制 数字 的 个 数 。 我 们 利用 它 来 研究 GCC 栈 保护 者 措施 的 一 些 
情况 。 
int len(char *s) { 


return strlen(s); 


} 


void iptoa(char *s, long *p) { 
long val = *p; 
asprintf(s, "ldvr, val)s 


小 

int intlen(long x) { 
long v; 
char buf [12] ; 
Y= 


iptoa(buf, &v); 
return len(buf); 


} 
下 面 是 intlen 的 部 分 代码 ， 分 别 由 带 和 不 带 栈 保护 者 编译 : 
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int intlen(long x) 
x i Vidi 
intlen: 

















1 

int intlen(long x) subq $56, %rsp 

x in Yrdi 3 movdq %fs:40, hrax 
1 intlen: 4 movqg %rax, 40(%rsp) 
2 subq $40, %rsp 5 Xxorl Weax, %eax 
3 movdq %rdi, 24(%rsp) 6 movq %rdi, 8(%rsp) 
4 leag 24(%rsp), %rsi leaq 8(%rsp), %rsi 
§ movg %rsp, %rdi 8 leaq 16(%rsp), %rdi 
6 call iptoa 9 call iptoa 

a ) 不 带 保护 者 b ) 带 保护 者 


A. 对 于 两 个 版 本 : buf、v 和 人 金 丝 省 值 (如 果 有 的 话 ) 分 别 在 栈 帧 中 的 什么 位 置 ? 

B,， 在 有 保护 的 代码 中 ， 对 局 部 变量 重新 排列 如 何 提供 更 好 的 安全 性 来 对 抗 缓冲 区 越界 攻击 ? 

3. 限制 可 执行 代码 区 域 

最 后 一 招 是 消除 攻击 者 向 系统 中 插入 可 执行 代码 的 能 力 。 一 种 方法 是 限制 哪些 内 存 区域 能 
够 存放 可 执行 代码 。 在 典型 的 程序 中 ， 只 有 保存 编译 器 产生 的 代码 的 那 部 分 内 存 才 需要 是 可 执 
行 的 。 其 他 部 分 可 以 被 限制 为 只 允许 读 和 写 。 正 如 第 9 章 中 会 看 到 的 ， 虚 拟 内 存 空 间 在 逻辑 上 
被 分 成 了 页 (page) ， 典 型 的 每 页 是 2048 或 者 4096 个 字 节 。 硬 件 支持 多 种 形式 的 内 存 保护 ， 能 够 
指明 用 户 程序 和 操作 系统 内 核 所 允许 的 访问 形式 。 许 多 系统 允许 控制 三 种 访问 形式 : 读 ( 从 内 存 
读数 据 )、 写 (存储 数据 到 内 存 ) 和 执行 (将 内 存 的 内 容 看 作 机 器 级 代码 )。 以 前 ，x86 体系 结构 将 
读 和 执行 访问 控制 合并 成 一 个 1 位 的 标志 ， 这 样 任何 被 标记 为 可 读 的 页 也 都 是 可 执行 的 。 栈 必 
须 是 既 可 读 又 可 写 的 ， 因 而 栈 上 的 字 节 也 都 是 可 执行 的 。 已 经 实现 的 很 多 机 制 ， 能 够 限制 一 些 
”页 是 可 读 但 是 不 可 执行 的 ， 然 而 这 些 机 制 通常 会 带 来 严重 的 性 能 损失 。 

最 近 ，AMD 为 它 的 64 位 处 理 器 的 内 存 保护 引入 了 “NX”(No-Execute， 不 执行 ) 位 ， 
将 读 和 执行 访问 模式 分 开 ，Intel 也 跟 进 了 。 有 了 这 个 特性 ， 栈 可 以 被 标记 为 可 读 和 可 写 ， 
但 是 不 可 执行 ， 而 检查 页 是 否 可 执行 由 硬件 来 完成 ， 效 率 上 没有 损失 。 

有 些 类 型 的 程序 要 求 动态 产生 和 执行 代码 的 能 力 。 例 如 ，“ 即 时 (just-in-time)” 编 译 
技术 为 解释 语言 (例如 Java) 编 写 的 程序 动态 地 产生 代码 ， 以 提高 执行 性 能 。 是 否 能 够 将 可 
执行 代码 限制 在 由 编译 器 在 创建 原始 程序 时 产生 的 那个 部 分 中 ， 取 决 于 语言 和 操作 系统 。 

我 们 讲 到 的 这 些 技术 一 一 随机 化 、 栈 保护 和 限制 哪 部 分 内 存 可 以 存储 可 执行 代码 一 一 
是 用 于 最 小 化 程序 缓冲 区 溢出 攻击 漏洞 三 种 最 常见 的 机 制 。 它 们 都 具有 这 样 的 属性 ， 即 不 
需要 程序 员 做 任何 特殊 的 努力 ， 带 来 的 性 能 代价 都 非常 小 ， 甚 至 没有 。 单 独 每 一 种 机 制 都 
降低 了 漏洞 的 等 级 ， 而 组 合 起 来 ， 它 们 变 得 更 加 有 效 。 不 幸 的 是 ， 仍 然 有 方法 能 够 攻击 计 
算 机 L85，97j， 因 而 蠕虫 和 病毒 继续 危害 着 许多 机 器 的 完整 性 。 


3. 10.5 支持 变 长 栈 帧 

到 目前 为 止 ， 我 们 已 经 检查 了 各 种 函数 的 机 器 级 代码 ， 但 它们 有 一 个 共同 点 ， 即 编译 
器 能 够 预先 确定 需要 为 栈 帧 分 配 多 少 空间 。 但 是 有 些 函 数 ， 需 要 的 局 部 存储 是 变 长 的 。 例 
如 ， 当 函数 调用 alloca 时 就 会 发 生 这 种 情况 。alloca 是 一 个 标准 库 函 数 ， 可 以 在 栈 上 
分 配 任意 字 节 数量 的 存储 。 当 代码 声明 一 个 局 部 变 长 数组 时 ， 也 会 发 生 这 种 情况 。 

虽然 本 节 介 绍 的 内 容 实际 上 是 如 何 实现 过 程 的 一 部 分 ， 但 我 们 还 是 把 它 推迟 到 现在 才 
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讲 ， 因 为 它 需要 理解 数组 和 对 齐 。 

图 3-43a 的 代码 给 出 了 一 个 包含 变 长 数组 的 例子 。 该 函数 声明 了 n 个 指针 的 局 部 数组 
PpP， 这 里 n 由 第 一 个 参数 给 出 。 这 要 求 在 栈 上 分 配 8n 个 字 节 ， 这 里 ”的 值 每 次 调用 该 函数 
时 都 会 不 同 。 因 此 编译 器 无 法 确定 要 给 该 孙 数 的 栈 帧 分 配 多 少 空间 。 此 外 ， 该 程序 还 产生 
一 个 对 局 部 变量 i 的 地 址 引用 ， 因 此 该 变量 必须 存储 在 栈 中 。 在 执行 工程 中 ， 程 序 必须 能 
够 访问 局 部 变量 i 和 数组 p 中 的 元 素 。 返 回 时 ， 该 函数 必须 释放 这 个 栈 帧 ， 并 将 栈 指针 设 
置 为 存储 返回 地 址 的 位 置 。 








long vframe(long n, long idx, long *q) { 








long i; 
long *p [n] ; 
p[0] = &i; 
For (¥ = ly HC ms +) 
pli] = qi; 
return *p[idx]; 
} 
a ) C 代 码 
long vframe(long n, long idx, long *q) 
n iD Yrdi, idx in Yrsi, q im Yrdx 
Only portions of code shown 
1 vframe: 
2 pushq  %rbp Save old %rbp 
3 movq %rsp, %rbp Set frame pointer 
4 subq $16, %rsp Allocate space for i (Yrsp = s1) 
5 leaq 22( Wrdi, 8) Wrax 
6 andq $-16, %rax 
subq %rax, %rsp Allocate space for array p (Yrsp = $2) 
8 leaq 7(%rsp), %rax 
9 shrq $3, Whrax 
10 leaq 0(,%rax,8), %r8 Set %r8 to gp[0] 
11 movd 8 WX Set Yrcx to &p[0] (Yrecx = p) 
Code for initialization loop 
i in Yrax and on stack, n in Yrdi, p in Yrcx, q in Yrdx 
该 . 工 3 : loop: 
13 movgd %rdx, (%rcx,%rax,8) Set p[i] to 9 
14 adddq $1, %rax Increment i 
15 movg %rax, -8(%rbp) Store on stack 
16 “28 
17 movg -8(%rbp), %rax Retrieve i from stack 
18 cmpq %rdi, %rax Compare 工 :了 
19 jl .L3 If <, goto loop 
Code for function exit 
20  ， leave Restore Yrbp and Yrsp 
| ret Return 











b ) 生成 的 部 分 汇编 代码 
图 3-43 ”需要 使 用 帧 指针 的 函数 。 变 长 数组 意味 着 在 编译 时 无 法 确定 栈 帧 的 大 小 


第 3 章 程序 的 机 器 级 表示 203 





为 了 管理 变 长 栈 帧 ，x86-64 代码 使 用 寄存 器 srbp 作为 帧 指针 (frame pointer)( 有 时 称 


为 基 指 针 (base pointer)， 这 也 是 srbp 中 bp 运 回 地 二 
返 
两 个 字母 的 由 来 ) 。 当 使 用 帧 指针 时 ， 栈 帧 的 8 
保存 的 S$rbp 
帧 指针 gzrbp 一 一 > -| 








组 织 结构 与 图 3-44 中 国 数 vframe 的 情况 一 
样 。 可 以 看 到 代码 必须 把 srbp 之 前 的 值 保 存 
到 栈 中 ， 因 为 它 是 一 个 被 调用 者 保存 寄存 器 。 -6 
然后 在 函数 的 整个 执行 过 程 中 ， 都 使 得 $rbp 
指向 那个 时 刻 栈 的 位 置 ， 然 后 用 固定 长 度 的 
局 部 变量 (例如 1i) 相 对 于 srbp 的 偏 移 量 来 引 
用 它们 。 3" 字 节 1 

图 3-43b 是 GCC 为 函数 vframe 生成 的 
部 分 代码 。 在 函数 的 开始 ， 代 码 建 立 栈 帧 ， 
并 为 数组 p 分 配 空间 。 首 先 把 srbp 的 当前 值 S 
压 人 栈 中 ,将 %rbp 设置 为 指向 当前 的 楼 位 置 栈 指针 srsp 一 > 
(第 2 一 3 行 )。 然 后 ， 在 栈 上 分 配 16 个 字 节 ， 图 3-44 函数 vframe 的 栈 帧 结构 (该 函数 使 用 寄 
其 中 前 8 个 字 节 用 于 存储 局 部 变量 i， 而 后 8 存 器 srbp 作为 帧 指针 。 图 右边 的 注释 供 
个 字 节 是 未 被 使 用 的 。 接 着 ， 为 数组 p 分 配 人 
空间 (第 5 一 11 行 )。 练 习题 3. 49 探讨 了 分 配 多 少 空间 以 及 将 p 放 在 这 段 空 间 的 什么 位 置 。 
当 程序 到 第 11 行 的 时 候 ， 已 经 (1) 在 栈 上 分 配 了 8n 字 节 ， 并 (2) 在 已 分 配 的 区 域内 放置 好 
数组 bp， 至 少 有 8n 字 节 可 供 其 使 用 。 

初始 化 循环 的 代码 展示 了 如 何 引 用 局 部 变量 i 和 p 的 例子 。 第 13 行 表 明 数 组 元 素 p 
[i] 被 设置 为 q。 该 指令 用 寄存 器 $rcx 中 的 值 作为 p 的 起 始 地 址 。 我 们 可 以 看 到 修改 局 部 
变量 i( 第 15 行 ) 和 读 局 部 变量 (第 17 行 ) 的 例子 。i 的 地 址 是 引用 -8(srbp)， 也 就 是 相对 
于 帧 指针 偏 移 量 为 -8 的 地 方 。 

在 函数 的 结尾 ，leave 指令 将 帧 指针 恢复 到 它 之 前 的 值 ( 第 20 行 )。 这 条 指令 不 需要 
参数 ， 等 价 于 执行 下 面 两 条 指令 : 























用 Pp 
2 $2 





movq %rbp, %rsp Set stack pointer to beginning of frame 
popq %rbp Restore saved Yrbp and set stack Pt 


to end of caller's frame 


也 就 是 ， 首 先 把 栈 指针 设置 为 保存 $rbp 值 的 位 置 ， 然 后 把 该 值 从 栈 中 弹出 到 srbp。 这 个 
§ 令 组 合 具 有 释放 整个 栈 帧 的 效果 。 
在 较 早 版 本 的 x86 代码 中 ， 每 个 函数 调用 都 使 用 了 帧 指针 。 而 现在 ， 只 在 栈 帧 长 可 变 
的 情况 下 才 使 用 ， 就 像 函 数 vframe 的 情况 一 样 。 历 史上 ， 大 多 数 编译 器 在 生成 IA32 代 
码 时 会 使 用 帧 指针 。 最 近 的 GCC 版 本 放弃 了 这 个 惯例 。 可 以 看 到 把 使 用 帧 指针 的 代码 和 
不 使 用 帧 指针 的 代码 混在 一 起 是 可 以 的 ， 只 要 所 有 的 函数 都 把 srbp 当做 被 调用 者 保存 寄 
存 器 来 处 理 即 可 。 
ES 练习 题 3. 49 在 这 道 题 中 ， 我 们 要 探究 图 3-43b 第 5~11 行 代码 浓 后 的 底 辑 ， 它 分 配 
了 变 长 大 小 的 数组 P。 正 如 代码 的 注释 表明 的 ，% 表示 执行 第 4 行 的 subq 指令 之 后 栈 
站 针 的 地 址 。 这 条 指令 为 局 部 变量 i 分配 空 间 。ss 表 示 执 行 第 7 行 的 subq 指令 之 后 
栈 指针 的 值 。 这 条 指令 为 局 部 数组 pp 分 配 存储 。 最 后 ，p 表示 第 10~11 行 的 指令 赋 
给 寄存 器 sr8 和 srcx 的 值 。 这 两 个 寄存 器 都 用 来 引用 数组 p。 








图 3-44 的 右边 画 出 了 s1、ss 和 p 指示 的 位 置 。 图 中 还 画 出 了 $52 和 上 p 的 值 之 间 可 能 
有 一 个 偏 移 量 为 e; 字 节 的 位 置 ， 该 空间 是 未 被 使 用 的 。 数 组 p 的 结尾 和 si 指示 的 位 置 
之 间 还 可 能 有 一 个 偏 移 量 为 el 字 节 的 地 方 。 
A. 用 数学 语言 解释 第 5~7 行 中 计算 sz 的 逻辑 。 提 示 : 想 想 一 16 的 位 级 表示 以 及 它 在 
第 6 行 andq 指令 中 的 作用 。 
B. 用 数学 语言 解释 第 8 一 10 行 中 计算 旋 的 逻辑 。 提 示 : 可 以 参考 2.3.7 节 中 有 关 除 
以 2 的 老 的 讨论 。 
C. 对 于 下 面 n 和 si 的 值 ， 跟 踪 代 码 的 执行 ， 确 定 ss、p、e1 和 es 的 结果 值 。 





n $1 32 p el e2 








5 2 065 








6 2 064 








D. 这 段 代码 为 和 p 的 值 提供 了 什么 样 的 对 齐 属性 ? 


3. 11 浮 点 代码 

处 理 器 的 浮 点 体系 结构 包括 多 个 方面 ， 会 影响 对 浮 点 数据 操作 的 程序 如 何 被 映射 到 机 
器 上 上， 包括: 

e 如 何 存储 和 访问 浮 点 数值 。 通 常 是 通过 某 种 寄存 器 方式 来 完成 。 

e 对 浮 点 数据 操作 的 指令 。 

e@ 问 函 数 传递 浮 点 数 参数 和 从 冰 数 返回 浮 点 数 结果 的 规则 。 

® 国 数 调用 过 程 中 保存 寄存 器 的 规则 一 一 例如 ， 一 些 寄存 器 被 指定 为 调用 者 保存 ， 而 

其 他 的 被 指定 为 被 调用 者 保存 。 

简要 回顾 历史 会 对 理解 x86-64 的 浮 点 体系 结构 有 所 帮助 。1997 年 出 现 了 Pentium/ 
MMX，Intel 和 AMD 都 引入 了 持续 数 代 的 媒体 (media) 指 令 ， 支 持 图 形 和 图 像 处 理 。 这 些 
指令 本 意 是 允许 多 个 操作 以 并 行 模 式 执行 ， 称 为 单 指令 多 数据 或 SIMD( 读 作 sim-dee)。 
在 这 种 模式 中 ， 对 多 个 不 同 的 数据 并 行 执行 同一 个 操作 。 近 年 来 ， 这些 扩展 有 了 长 足 的 发 
展 。 名 字 经 过 了 一 系列 大 的 修改 ， 从 MMX 到 SSE(Streaming SIMD Extension， 流 式 
SIMD 扩展 )， 以 及 最 新 的 AVX(Advanced Vector Extension， 高 级 向 量 扩 展 )。 每 一 代 中 ， 
都 有 一 些 不 同 的 版 本 。 每 个 扩展 都 是 管理 寄存 器 组 中 的 数据 ， 这 些 寄 存 器 组 在 MMX 中 称 
为 “MM” 寄 存 器 ，SSE 中 称 为 “XMM” 寄 存 器 ， 而 在 AVX 中 称 为 “YMM” 寄 存 器 ; 
MM 寄存 器 是 64 位 的 ，XMM 是 128 位 的 ， 而 YMM 是 256 位 的 。 所 以 ,每 个 YMM 寄 
存 器 可 以 存放 8 个 32 位 值 , 或 4 个 64 位 值 ， 这些 值 可 以 是 整数 ， 也 可 以 是 浮 点 数 。 

2000 年 Pentium 4 中 引入 了 SSE2， 媒 体 指令 开始 包括 那些 对 标量 浮 点 数据 进行 操作 
的 指令 ， 使 用 XMM 或 YMM 寄存 器 的 低 32 位 或 64 位 中 的 单个 值 。 这 个 标量 模式 提供 了 
一 组 寄存 器 和 指令 ， 它 们 更 类 似 于 其 他 处 理 器 支持 浮 点 数 的 方式 。 所 有 能 够 执行 x86-64 
代码 的 处 理 器 都 支持 SSE2 或 更 高 的 版 本 ， 因 此 x86-64 浮 点 数 是 基于 SSE 或 AVX 的 ， 包 
括 传递 过 程 参 数 和 返回 值 的 规则 [77] 。 

我 们 的 讲述 基于 AVX2， 即 AVX 的 第 二 个 版 本 ， 它 是 在 2013 年 Core i7 Haswell 处 
理 器 中 引入 的 。 当 给 定 命令 行 参 数 -mavx2 时 ，GCC 会 生成 AVX2 代码 。 基 于 不 同 版 本 的 
SSE 以 及 第 一 个 版 本 的 AVX 的 代码 从 概念 上 来 说 是 类 似 的 ， 不 过 指令 名 和 格式 有 所 不 同 。 
我 们 只 介绍 用 GCC 编译 浮 点 程序 时 会 出 现 的 那些 指令 。 其 中 大 部 分 是 标量 AVX 指令 ,我 
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们 也 会 说 明 对 整个 数据 向 量 进行 操作 的 指令 出 现 的 情况 。 后 文中 的 网 络 旁 注 OPT: SIMD 
更 全 面 地 说 明了 如 何 利用 SSE 和 AVX 的 SIMD 功能 读者 可 能 希望 参考 AMD 和 Intel 对 每 
条 指令 的 说 明文 档 [4，51]。 和 整数 操作 一 样 ， 注 意 我 们 表述 中 使 用 的 ATT 格式 不 同 于 这 
些 文档 中 使 用 的 Intel 格式 。 特 别 地 ， 这 两 种 版 本 中 列 出 指令 操作 数 的 顺序 是 不 同 的 。 

如 图 3-45 所 示 ，AVX 浮 点 体系 结构 允许 数据 存储 在 16 个 YMM 寄存 器 中 ， 它 们 的 
名 字 为 symm0 一 %ymm15。 每 个 YMM 寄存 器 都 是 256 位 (32 字 节 )。 当 对 标量 数据 操作 时 ， 
这 些 寄存 器 只 保存 浮 点 数 ， 而 且 只 使 用 低 32 位 (对 于 float) 或 64 位 (对 于 double)。 汇 
编 代 码 用 寄存 器 的 SSE XMM 寄存 器 名 字 %xmm0 一 sxmm15 来 引用 它们 ， 每 个 XMM 寄存 器 
都 是 对 应 的 YMM 寄存 器 的 低 128 位 (16 字 节 ) 。 












































255 127 0 

gsymmO $xmmO 1st FP arg. 返 回 值 
Symml [sm 2nd FP 参数 
Symm5 Sxmm5 6th FP 参数 
%ymm6 Sxmm6 7th FP 参数 
$ymm7 Sxmm7 8th FP 参数 
gymm8 Sxmm8 调用 者 保存 
Symm9 $xmm9 调用 者 保存 
$ymml0 Sxmml10 调用 者 保存 
Symmll 多 Xml 1 调用 者 保存 
gsymm12 gSxmm12 调用 者 保存 
symm13 sxrmml3 调用 者 保存 
symml4 Sxmm14 调用 者 保存 
Symm15 [sxmms 调用 者 保存 





图 3-45 媒体 寄存 器 。 这 些 寄存 器 用 于 存放 浮 点 数据 。 每 个 YMM 寄存 器 
保存 32 个 字 节 。 低 16 字 节 可 以 作为 XMM 寄存 器 来 访问 


3.11.1 浮 点 传送 和 转换 操作 
图 3-46 给 出 了 一 组 在 内 存 和 XMM 寄存 器 之 间 以 及 从 一 个 XMM 寄存 器 到 男 一 个 不 
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做 任何 转换 的 传送 浮 点 数 的 指令 。 引 用 内 存 的 指令 是 标量 指令 ， 意 味 着 它们 只 对 单个 而 不 
是 一 组 封装 好 的 数据 值 进行 操作 。 数 据 要 么 保存 在 内 存 中 (由 表 中 的 Ma 和 Ms, 指明)， 要 
么 保存 在 XMM 寄存 器 中 (在 表 中 用 X 表示 )。 无 论 数据 对 齐 与 否 ， 这 些 指令 都 能 正确 执 
行 ， 不 过 代码 优化 规则 建议 32 位 内 存 数据 满足 4 字 节 对 齐 ，64 位 数据 满足 8 字 节 对 齐 。 
内 存 引 用 的 指定 方式 与 整数 MOYV 指令 的 一 样 ， 包 括 偏 移 量 、 基 址 寄存 器 、 变 址 寄存 器 和 
伸缩 因子 的 所 有 可 能 的 组 合 。 












































指令 源 目的 描述 

nomee Ms x | 传送 单 精度 数 | 
vmovss Xx Ms 传送 单 精度 数 

vmovsd Ms: ] Xx 传送 双 精 度数 

vmovsd X Mss 传送 双 精 度数 

vmovaps | X X 传送 对 齐 的 封装 好 的 单 精 度数 
vmovapd 和 站 传送 对 齐 的 封装 好 的 双 精 度数 

图 3-46 浮 点 传送 指令 。 这 些 操作 在 内 存 和 寄存 器 之 间 以 及 一 对 寄存 器 之 间 传 送 值 (X: XMM 
寄存 器 (例如 $xmm3); Ms : 32 位 内 存 范围 ; Me: : 64 位 内 存 范围 ) 


GCC 只 用 标量 传送 操作 从 内 存 传 送 数据 到 XMM 寄存 器 或 从 XMM 寄存 器 传送 数据 
到 内 存 。 对 于 在 两 个 XMM 寄存 器 之 间 传 送 数据 ，GCC 会 使 用 两 种 指令 之 一 ， 即 用 
vmovaps 传送 单 精 度数 ， 用 vmovapa 传送 双 精 度数 。 对 于 这 些 情 况 ， 程 序 复制 整个 寄存 
器 还 是 只 复制 低位 值 既 不 会 影响 程序 功能 ， 也 不 会 影响 执行 速度 ， 所 以 使 用 这 些 指 令 还 是 
针对 标量 数据 的 指令 没有 实质 上 的 差别 。 指 令 名 字 中 的 字母 ‘a’ 表示 “aligned( 对 齐 的 )”。 
当 用 于 读 写 内 存 时 ， 如 果 地 址 不 满足 16 字 节 对 齐 ， 它 们 会 导致 异常 。 在 两 个 寄存 器 之 间 
传送 数据 ， 绝 不 会 出 现 错误 对 齐 的 状况 。 
下 面 是 一 个 不 同 浮 点 传送 操作 的 例子 ， 考 虑 以 下 C 函数 
float float_mov(float vi, float *src, float *dst) { 
float v2 = *src; 
*dst = v1; 


return v2; 


与 它 相 关联 的 x86-64 汇编 代码 为 


float float_mov(float vi, float *src, float *dst) 
v1 in %Yxmm0, src iD Yrdi, dst iD %rsi 


| float_mov: 

2 vmovaps %xmmO0, %xmm1 Copy v1 

3 vmovss (%rdi), %xmmO Read v2 from src 
4 vmovss %xmmi, (%rsi) Write vi to dst 

5 ret Return v2 in %xmmO 


这 个 例子 中 可 以 看 到 它 使 用 了 vmovaps 指令 把 数据 从 一 个 寄存 器 复制 到 另 一 个 ， 使 用 了 
vmovss 指令 把 数据 从 内 存 复制 到 XMM 寄存 器 以 及 从 XMM 寄存 器 复制 到 内 存 。 

图 3-47 和 图 3-48 给 出 了 在 浮 点 数 和 整数 数据 类 型 之 间 以 及 不 同 浮 点 格式 之 间 进 行 转 
换 的 指令 集合 。 这 些 都 是 对 单个 数据 值 进行 操作 的 标量 指令 。 图 3-47 中 的 指令 把 一 个 从 
XMM 寄存 器 或 内 存 中 读 出 的 浮 点 值 进行 转换 ， 并 将 结果 写 人 一 个 通用 寄存 器 (例如 
S$rax、%ebx 等 )。 把 浮 点 值 转换 成 整数 时 ， 指 令 会 执行 截断 (truncation)， 把 值 向 0 进行 舍 











人 ,这 是 C 和 大 多 数 其 他 编程 语言 的 要 求 。 
指 


























令 源 | 目的 描述 
vevttss2si X/Msz Ra 用 截断 的 方法 把 单 精 度数 转换 成 整数 
vevttsd2si X/Mea | Rs2 用 截断 的 方法 把 双 精 度数 转换 成 整数 
vecvttss2siq /Maz 有 Res 用 截断 的 方法 把 单 精 度数 转换 成 四 字 整 数 
vevttsd2siq X/Mes4 Roes 用 截断 的 方法 把 双 精 度数 转换 成 四 字 整 数 





图 3-47 双 操 作 数 浮 点 转换 指令 。 这 些 操作 将 浮 点 数 转换 成 整数 (X: XMM 寄存 器 (例如 sxmm3); Ra : 
32 位 通用 寄存 器 (例如 seax); Res: 64 位 通用 寄存 器 (例如 srax); Ms : 32 位 内 存 范 围 ; Mos: 























64 位 内 存 范围 ) 
指令 | ” 源 1 | 源 2 | 目的 描述 
vcvtsi2ss | Ma/Rs | X | x 把 整数 转换 成 单 精度 数 
vevtsi2sd | Msz/Rs | x | x | “把 整数 转换 成 双 精 度数 
| vevtsi2ssq | Me4 /Rea | X | X | 把 四 字 整 数 转换 成 单 精度 数 
vcvtsi2sadq Mai/Re | X | x | “把 四 字 整 数 转换 成 双 精 度数 





图 3-48 三 操作 数 浮 点 转换 指令 。 这 些 操作 将 第 一 个 源 的 数据 类 型 转换 成 目的 的 数据 类 型 。 第 二 个 源 值 
对 结果 的 低位 字 节 没有 影响 (X: XMM 寄存 器 (例如 sxmm3); Ma : 32 位 内 存 范围 ，Mss : 64 位 
内 存 范围 ) 


图 3-48 中 的 指令 把 整数 转换 成 浮 点 数 。 它 们 使 用 的 是 不 太 常 见 的 三 操作 数 格式 ， 有 
两 个 源 和 一 个 目的 。 第 一 个 操作 数 读 自 于 内 存 或 一 个 通用 目的 寄存 器 。 这 里 可 以 忽略 第 二 
个 操作 数 ， 因 为 它 的 值 只 会 影响 结果 的 高 位 字 节 。 而 我 们 的 目标 必须 是 XMM 寄存器。 在 
最 常见 的 使 用 场景 中 ， 第 二 个 源 和 目的 操作 数 都 是 一 样 的 ， 就 像 下 面 这 条 指令 


Vcvtsi2sdq %rax, %xmml, %xmml 


这 条 指令 从 寄存 器 srax 读 出 一 个 长 整数 ， 把 它 转 换 成 数据 类 型 double， 并 把 结果 存放 进 
XMM 寄存 器 sxmml 的 低 字 节 中 。 

最 后 ， 要 在 两 种 不 同 的 浮 点 格式 之 间 转 换 ，GCC 的 当前 版 本 生成 的 代码 需要 单独 说 
明 。 假 设 $xmmo 的 低位 4 字 节 保存 着 一 个 单 精度 值 ， 很 容易 就 想到 用 下 面 这 条 指令 


vecvtss2sd hxmm0, %xmmO0, %hxmmO 


把 它 转换 成 一 个 双 精 度 值 ， 并 将 结果 存储 在 寄存 器 sxmm0 的 低 8 字 节 。 不 过 我 们 发 现 GCC 
生成 的 代码 如 下 
Conversion from single to double precision 


1 vunpcklps ‘%xmmO0, %xmmO, %xmm0O Replicate first vector element 
2 vcevtps2pd ‘%xmm0, %xmmO Convert two vector elements to double 


vunpcklps 指令 通常 用 来 交叉 放置 来 自 两 个 XMM 寄存 器 的 值 ， 把 它们 存储 到 第 三 个 
寄存 器 中 。 也 就 是 说 ， 如 果 一 个 源 寄存 器 的 内 容 为 字 [ss ，Y ，s! ，so]， 男 一 个 源 寄存 器 为 
字 [4d;， ds, di, ty | 那么 目的 寄存 器 的 值 会 是 [si， di, $0， di J 在 上 面 的 代码 中 ， 我 
们 看 到 三 个 操作 数 使 用 同一 个 寄存 器 ， 所 以 如 果 原 始 寄存 器 的 值 为 Lx3，zx;，xzi，zxo]， 那 
么 该 指令 会 将 寄存 器 的 值 更 新 为 值 [x;，zxi;，xo。，Zxo]。vcvtps2pd 指令 把 源 XMM 寄存 器 
中 的 两 个 低位 单 精度 值 扩 展 成 目的 XMM 寄存 器 中 的 两 个 双 精 度 值 。 对 前 面 vunpcklps 
指令 的 结果 应 用 这 条 指令 会 得 到 值 Ldaz。，dzoj， 这 里 dxo 是 将 x 转换 成 双 精 度 后 的 结果 。 








即 ， 这 两 条 指令 的 最 终 效 果 是 将 原始 的 sxmmg0 低位 4 字 节 中 的 单 精度 值 转换 成 双 精 度 值 ， 
再 将 其 两 个 副本 保存 到 %xmm0 中 。 我 们 不 太 清 楚 GCC 为 什么 会 生成 这 样 的 代码 ， 这 样 做 
既 没 有 好 处 ， 也 没有 必要 在 XMM 寄存 器 中 把 这 个 值 复制 一 遍 。 

对 于 把 双 精 度 转 换 为 单 精度 ，GCC 会 产生 类 似 的 代码 : 


Conversion from double to single precision 
1 vmovddup %xmmO , %xmmO Replicate first vector element 
2 vcvtpd2psx  %xmmO0, %xmmO Convert two vector elements to single 


假设 这 些 指令 开始 执行 前 寄存 器 sxmmg0 保存 着 两 个 双 精 度 值 [x; ，zo]。 然 后 vmovddup 指 
令 把 它 设置 为 Lx。，zxo ]。vcvtpd2psx 指令 把 这 两 个 值 转换 成 单 精度 ， 再 存放 到 该 寄存 器 
的 低位 一 半 中 ， 并 将 高 位 一 半 设 置 为 0， 得 到 结果 [0.0，0.0，zxo。，zxoj( 回 想 一 下 ， 浮 点 值 
0.0 是 由 位 模式 全 0 表示 的 )。 同 样 ， 用 这 种 方式 把 一 种 精度 转换 成 另 一 种 精度 ， 而 不 用 下 
面 的 单条 指令 ， 没 有 明显 直接 的 意义 : 


Vcvtsd2sSs hxmm0, %xmmO, %xmmO 


下 面 是 一 个 不 同 浮 点 转换 操作 的 例子 ， 考 虑 以 下 C 函数 
double fcvt(int i, float *fp, double *dp, long *1p) 


float f = *fp; double d = *dp; long 1 = *]lp; 
*]lp = (long) d; 
*fp = (float) i; 
*dp = (double) 1; 
return (double) f; 
} 


以 及 它 对 应 的 x86-64 汇编 代码 
double fcvt(int i, float *fp, double *dp, long *1p) 
in Wedi; Fp in Xroi, dp in Wrdxs Tp'in Wrer 


| owb 
vmovss (%rsi), %xmmO Get f = *fp 
3 movq (Xrcx), hrax Get 1 = *1p 
4 vevttsd2siq (%rdx) , %r8 Get d = *dp and convert to long 
5 movq %r8, (Xrcx) Store at 1p 
6 vcevtsi2ss Wedi, %xmml, %xmml Convert i to float 
5 vmovss %xmml, (%rsi) Store at fp 
8 vecvtsi2sdq %rax, %xmml, %xmmi Convert 1 to double 
9 vmovsd ‘%xmml, (%rdx) Store at dp 
The following two instructions convert f to double 
10 vunpcklps %xmmO, %xmmO, hxmmO 
11 vevtps2pd %xmmO ,%xmmO 
设 ret Return f 


fcvt 的 所 有 参数 都 是 通过 通用 寄存 器 传递 的 ， 因 为 它们 既 不 是 整数 也 不 是 指针 。 结 
果 通 过 寄存 器 $xmm0 返回 。 如 图 3-45 中 描述 的 ， 这 是 float 或 gdouble 值 指定 的 返回 寄存 
器 。 在 这 段 代 码 中 ， 可 以 看 到 图 3-46 一 图 3-48 中 的 许多 传送 和 转换 指令 ， 还 可 以 看 到 
GCC 将 单 精 度 转换 为 双 精 度 的 方法 。 
评 导 练习 题 3.50 ”对 于 下 面 的 C 代码 ， 表 达 式 vall~val4 分 别 对 应 程序 值 i、f、d 和 1; 
double fcvt2(int *ip, float *fp, double *dp, long 1) 
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‘ 
int i = *ip; float f = *fp; double d = *dp; 
*ip = (int) vall; 
*fp = (float) val2; 
*dp = (double) val3; 
return (double) val4; 
+ 


根据 该 函数 如 下 的 x86-64 代码 ， 确 定 这 个 映射 关系 : 
double fcvt2(int *ip, float *fp, double *dp, long 1) 
ip dn Wrdl, fp jn Vrsi, dp 1n Yrdz; 1 in rex 
Result returned in %xmmO 


和 下 区 人 7 人 2 

movl (%rdi), %eax 

3 vmovss (%rsi), %xmmO 

4 vecvttsd2si (Xrdx) , %r8d 

5 movl ured;. Urdi) 

6 vecvtsi2ss %eax, %xmmil, %xmml 
7 vmovss “xmm1i, (%rsi) 

8 vcvtsi2sdq %rcx, %xmm1, %xmmi 
9 vmovsd %xmmil, (%rdx) 

10 vunpcklps %xmmO, %xmmO, %xmmO 
11 vcevtps2pd %xmmO , %xmmO 

2 ret 


区 和 练习 题 3.51 下 面 的 C 函数 将 类 型 为 src 七 的 参数 转换 为 类 型 为 dst 七 的 返回 值 ， 
这 里 两 种 数据 类 型 都 用 typedef 定义 : 
dest_t cvt(src_t x) 
‘ 

dest_t y = (dest_t) x; 

return y; 


在 x86-64 上 执行 这 段 代码 ， 假 设 参数 x 在 %$xmm0 中 ， 或 者 在 寄存 器 srdi 的 某 个 
适当 的 命名 部 分 中 ( 即 %rdi 或 % edi)。 用 一 条 或 两 条 指令 来 完成 类 型 转换 ， 并 把 结果 
值 复制 到 寄存 器 %rax 的 某 个 适当 命名 部 分 中 (整数 结果 )， 或 sxmm0 中 ( 浮 点 结果 )。 
给 出 这 条 或 这 些 指令 ， 包 括 源 和 目的 寄存 器 。 


double | vcvtsi2sdq grdi, sxmm0 
| double | int 


double float 
float 


Long 


3.11.2 ”过 程 中 的 浮 点 代码 
在 x86-64 中 ，XMM 寄存 器 用 来 向 函数 传递 浮 点 参数 ， 以 及 从 函数 返回 浮 点 值 。 如 图 
3-45 所 示 ， 可 以 看 到 如 下 规则 : 


e XMM 寄存 器 sxmm0 一 sxmm7 最 多 可 以 传递 8 个 浮 点 参数 。 按 照 参数 列 出 的 顺序 使 用 
这 些 寄存 器 。 可 以 通过 栈 传递 额外 的 浮 点 参数 。 
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e 函数 使 用 寄存 器 sxmm0 来 返回 浮 点 值 。 
e 所 有 的 XMM 寄存 器 都 是 调用 者 保存 的 。 被 调用 者 可 以 不 用 保存 就 覆盖 这 些 寄存 器 
申 任 意 一 个 
当 函 数 包含 指针 、 整 数 和 浮 点 数 混合 的 参数 时 ， 指 针 和 整数 通过 通用 寄存 器 传递 ， 而 
浮 点 值 通过 XMM 寄存 器 传递 。 也 就 是 说 ， 参 数 到 寄存 器 的 映射 取决 于 它们 的 类 型 和 排列 
的 顺序 。 下 面 是 一 些 例子 : 
double fl(int x, double y, long z) ; 


这 个 函数 会 把 x 存放 在 % edi 中 ，y 放 在 sxmm0 中 ， 而 z 放 在 srsi 中 。 
double f2(double y, int x, long 2); 


这 个 函数 的 寄存 器 分 配 与 函数 fl 相同 。 
double fi(float x, double *y, long *2Z); 


这 个 函数 会 将 x 放 在 $xmm0 中 ，y 放 在 srdi 中 ， 而 z 放 在 srsi 中 。 
训练 习题 3.52 对 于 下 面 每 个 函数 声明 ， 确 定 参数 的 寄存 器 分 配 : 
A. double gil(double a, long b, float c，int d); 
B. double g2(int a, double *b, float *c, long d); 
C. double g3(double *a, double b, int c, float d); 
D. double g4(float a, int *b, float c, double d); 


3. 11.3 浮 点 运算 操作 

图 3-49 描述 了 一 组 执行 算术 运算 的 标量 AVX2 浮 点 指令 。 每 条 指令 有 一 个 (S, ) 或 两 
个 (S! ，S; ) 源 操作 数 ， 和 一 个 目的 操作 数 D。 第 一 个 源 操作 数 S1 可 以 是 一 个 XMM 寄存 器 
或 一 个 内 存 位 置 。 第 二 个 源 操作 数 和 目的 操作 数 都 必须 是 XMM 寄存 器 。 每 个 操作 都 有 一 
条 针对 单 精度 的 指令 和 一 条 针对 双 精 度 的 指令 。 结 果 存 放 在 目的 寄存 器 中 。 

















单 精度 双 精 度 效果 描述 

vaddss vaddsd D<-S: 十 Si 浮 点 数 加 

Vsubss vsubsd Da=82—Si 浮 点 数 减 

vmulss vmulsd D<S, XS 浮 点 数 乘 

vdivss vdivsd D<—S2/Si 浮 点 数 除 

vmaxss vmaxsd D<-max(S,, S1) 浮 点 数 最 大 值 

vminss vminsd D<-min(S,, S$1) 浮 点 数 最 小 值 

sqrtss sqrtsd D— HSi 浮 点 数 平方 根 | 











图 3-49 标量 浮 点 算术 运算 。 这 些 指 令 有 一 个 或 两 个 源 操作 数 和 一 个 目的 操作 数 
来 看 一 个 例子 ， 考 虑 下 面 的 浮 点 函数 : 


double funct(double a, float x, double b, int i) 
t 


return a*x — b/i; 


} 
x86-64 代码 如 下 : 
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double funct(double a, float x, double b, int i) 


工交 Bb in Vini2, Y in Yedi 


1 funct : 
The following two instructions convert x to double 
六 vunpcklps %xmml ，Xxmm1l ，%xmmi 
3 vcevtps2pd %xmm1, %xmm1 
4 vmulsd %xmmO0, %xmmli, %xmmO Multiply a by x 
5 vecvtsi2sd edi, %xmmil, %xmml Convert i to double 
6 vdivsd %xmmi, %xmm2, %xmm2 Compute by 
7 vsubsd %xmm2, %xmmO0, %hxmmO Subtract from axx 
8 ret Return 


三 个 浮 点 参数 a、x 和 pb 通过 XMM 寄存 器 %xmm0 一 sxmm2 传递 ， 而 整数 参数 通过 寄存 
器 sedi 传递 。 标 准 的 双 指 令 序 列 用 以 将 参数 x 转换 为 双 精 度 类 型 (第 2 一 3 行 )。 男 一 条 转 
换 指令 用 来 将 参数 i 转换 为 双 精 度 类 型 (第 5 行 )。 该 函数 的 值 通过 寄存 器 $xmm0 返回 。 


首相 练习 题 3. 53 ”对 于 下 面 的 C 函数 ，4 个 参数 的 类 型 由 typedef 定义 : 


double functi(argl_t p, arg2_t q, arg3_t r, arg4.t s) 
{ 





return P/(q+r) - s; 


} 
编译 时 ，GCC 产生 如 下 代码 : 


double functi(argl_t p, arg2_t q, arg3_t r, arg4_t s) 


1 functl: 

7 vecvtsi2ssq %rsi, %xmm2, %xmm2 
3 vaddss “xmmO0, %xmm2, %xmmO 

4 vecvtsi2ss Xedi, %xmm2, %xmm2 
5 vdivss %xmmO0, %xmm2, %xmmO 

6 vunpcklps %xmmO0, %xmmO, %xmmO 
7 vevtps2pd %xmmO , %xmmO 

8 vsubsd %xmmil, %xmmO0, %xmmO 

9 ret 


确定 4 个 参数 类 型 可 能 的 组 合 ( 答 案 可 能 不 止 一 种 ) 。 
练习 题 3. 54 函数 funct2 具有 如 下 原型 : 

double funct2(double w, int x, float y, long 2z); 
GCC 为 该 函数 产生 如 下 代码 : 


double funct2(double w, int x, float y, long ZJ) 


污 


三 MnO T in Yedi, y in Wrimi, z in Yrsi 


1 funct2: 

六 vcvtsi2ss Wedi, %xmm2, %xmm2 
3 vmulss %xmml, %xmm2, %xmml 

4 vunpcklps %xmm1 , %xmm1, %xmml 
vecvtps2pd %xmm1 ，%xmm2 

6 vcvtsi2sdq %rsi, Wxmml, %xmml 
7 vdivsd ‘%xmml, %xmmO0, %xmmO 

8 vsubsd %xmm0, %xmm2, %xmmO 

9 ret 


写 出 funct2 的 C 语 言 版 本 。 
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3. 11.4 定义 和 使 用 浮 点 常数 


和 整数 运算 操作 不 同 ，AVX 浮 点 操作 不 能 以 立即 数值 作为 操作 数 。 相 反 ， 编 译 器 必 
须 为 所 有 的 常量 值 分 配 和 初始 化 存储 空间 。 然 后 代码 在 把 这 些 值 从 内 存 读 入 。 下 面 从 摄氏 
度 到 华氏 度 转换 的 函数 就 说 明了 这 个 问题 : 

double cel2fahr(double temp) 

return 1.8 * temp + 32.0; 
上 
相应 的 x86-64 汇编 代码 部 分 如 下 : 


double cel2fahr(double temp) 
temp im MYxmmO 
cel2fahr: 


1 

2 vmulsd .LC2(%rip), %xmm0, %xmmO Multiply by 1.8 

3 vaddsd .LC3(%rip), %xmmO0, %xmmO Add 32.0 

4 ret 

E: .EC25 

6 .long 3435973837 Low-order 4 bytes of 1.8 
7 .long 1073532108 High-order 4 bytes of 1.8 
8 .LC3: 

多 .long 0 Low-order 4 bytes of 32.0 
10 .long 1077936128 High-order 4 bytes of 32.0 


可 以 看 到 函数 从 标号 为 .LC2 的 内 存 位 置 读 出 值 1.8， 从 标号 为 .Lc3 的 位 置 读 入 值 32. 0。 
观察 这 些 标号 对 应 的 值 ， 可 以 看 出 每 一 个 都 是 通过 一 对 .1ong 声明 和 十 进 制 表示 的 值 指定 
的 。 该 怎样 把 这 些 数 解释 为 浮 点 值 呢 ? 看 看 标号 为 .LC2 的 声明 ， 有 两 个 值 ， 3435973837 
(0xcccccccd) 和 1073532108(0x3ffccccc)。 因 为 机 器 采用 的 是 小 端 法 字 节 顺序 ， 第 一 个 
值 给 出 的 是 低位 4 字 节 ， 第 二 个 给 出 的 是 高 位 4 字 节 。 从 高 位 字 节 ， 可 以 抽取 指数 字段 为 
0x3ff(1023)， 减 去 偏 移 1023 得 到 指数 0。 将 两 个 值 的 小 数位 连接 起 来 ， 得 到 小 数字 段 
0xccccccccccccdq， 二 进 制 小 数 表示 为 0.8， 加 上 隐 含 的 1 得 到 1. 8。 

位 练习 题 3. 55 ”解释 标号 为 .LC3 处 声明 的 数字 是 如 何 对 数字 32. 0 编码 的 。 





3. 11.5 在 浮 点 代码 中 使 用 位 级 操作 


有 时 ， 我 们 会 发 现 GCC 生成 的 代码 会 在 XMM 寄存 器 上 执行 位 级 操作 ， 得 到 有 用 的 
浮 点 结果 。 图 3-50 展示 了 一 些 相 关 的 指令 ， 类 似 于 它们 在 通用 寄存 器 上 对 应 的 操作 。 这 
些 操作 都 作用 于 封装 好 的 数据 ， 即 它们 更 新 整个 目的 XMM 寄存 器 ， 对 两 个 源 寄存 器 的 所 
有 位 都 实施 指定 的 位 级 操作 。 和 前 面 一 样 ， 我 们 只 对 标量 数据 感 兴趣 ， 只 想 了 解 这 些 指 令 
对 目的 寄存 器 的 低 4 或 8 字 节 的 影响 。 从 下 面 的 例子 中 可 以 看 出 ， 运 用 这 些 操作 通常 可 以 
简单 方便 地 操作 浮 点 数 。 











| 单 精度 双 精 度 效果 描述 
Vxorps vorpd D<-S2°Si 位 级 异 或 (EXCLUSIVE 一 OR) 
vandps andpd 了 <-S: &S! 位 级 与 (AND) 











图 3-50 ”对 封装 数据 的 位 级 操作 (这 些 指 令 对 一 个 XMM 寄存 器 中 的 所 有 128 位 进行 布尔 操作 ) 
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ES 练习 题 3. 56 ”考虑 下 面 的 C 函数 ， 其 中 EXPR 是 用 # define 定义 的 宏 : 


double simplefun(double x) { 
return EXPR(x); 





} 

下 面 ， 我 们 给 出 了 为 不 同 的 EXPR 定义 生成 的 AVX2 代码 ， 其 中 ，x 的 值 保存 在 和 xmm0 
中 。 这 些 代 码 都 对 应 于 某 些 对 浮 点 数值 有 用 的 操作 。 确 定 这 些 操作 都 是 什么 。 要 理解 
从 内 存 中 取出 的 常数 字 的 位 模式 才能 找 出 答案 。 


A. 1 vmovsd .LC1(%rip), %xmmi 
2 vandpd %xmmil, %xmmO0, %xmmO 
3 LCl: 
4 .long 4294967295 
5 .long 2147483647 
6 .long 0 
7 .long 0 
B.1 vxorpd %xmmO0, %xmmO0, %xmmO 
C. 1 vmovsd .LC2(%rip), %xmml 
2 vxorpd %xmmil, %xmmO, %xmmO 
3 .LC2: 
4 ‘long 0 
5 .long -2147483648 
6 ‘long 0 
long 0 


3.11.6 浮 点 比较 操作 
AVX2 提供 了 两 条 用 于 比较 浮 点 数值 的 指令 : 


指令 基于 描述 
ucomiss Si, S» Sz 一 95) 比较 单 精度 值 
ucomisd Si1, S; Sz 一 Si 比较 双 精 度 值 





这 些 指令 类 似 于 CMP 指令 (参见 3.6 节 )， 它 们 都 比较 操作 数 S; 和 S; (但 是 顺序 可 能 
与 预计 的 相反 )， 并 且 设 置 条 件 码 指示 它们 的 相对 值 。 与 cmpq 一 样 ， 它 们 遵循 以 相反 顺序 
列 出 操作 数 的 ATT 格式 惯例 。 参 数 5S; 必须 在 XMM 寄存 器 中 ， 而 S 可 以 在 XMM 寄存 器 
中 ， 也 可 以 在 内 存 中 。 

， 浮 点 比较 指令 会 设置 三 个 条 件 码 : 零 标 志 位 zF、 进 位 标志 位 CF 和 奇偶 标志 位 PF。 
3. 6, 1 节 中 我 们 没有 讲 奇 偶 标 志 位 ， 因 为 它 在 GCC 产生 的 x86 代码 中 不 太 常 见 。 对 于 整数 
操作 ， 当 最 近 的 一 次 算术 或 逻辑 运算 产生 的 值 的 最 低位 字 节 是 偶 校 验 的 ( 即 这 个 字 节 中 有 
偶数 个 1)， 那 么 就 会 设置 这 个 标志 位 。 不 过 对 于 浮 点 比较 ， 当 两 个 操作 数 中 任 一 个 是 
NaN 时 ， 会 设置 该 位 。 根 据 惯 例 ，C 语言 中 如 果 有 个 参数 为 NeN， 就 认为 比较 失败 了 ， 
这 个 标志 位 就 被 用 来 发 现 这 样 的 条 件 。 例 如 ， 当 x 为 NaN 时 ， 比 较 x==x 都 会 得 到 0。 

条 件 码 的 设置 条 件 如 下 : 








顺序 Sz : Si CF ZF PF 
无 序 的 1 1 1 
92<Sl 1 0 0 
S;=S1 0 | 0 
Ss>51 0 0 0 








当 任 一 操作 数 为 NaN 时 ， 就 会 出 现 无 序 的 情况 。 可 以 通过 奇偶 标志 位 发 现 这 种 情况 。 
通常 jp(jump on parity) 指 令 是 条 件 跳 转 ， 条 件 就 是 浮 点 比较 得 到 一 个 无 序 的 结果 。 除 了 这 种 
情况 以 外 ， 进 位 和 和 零 标志 位 的 值 都 和 对 应 的 无 符号 比较 一 样 : 当 两 个 操作 数 相等 时 ,设置 ZF; 
当 5S, 二 SI 时 ,设置 cF。 像 ja 和 jb 这 样 的 指令 可 以 根据 标志 位 的 各 种 组 合 进 行 条 件 跳 转 。 

来 看 一 个 浮 点 比较 的 例子 ， 图 3-51a 中 的 C 函数 会 根据 参数 x 与 0.0 的 相对 关系 进行 
类 ， 返回 一 个 枚 举 类 型 作为 结果 。C 中 的 枚 举 类 型 是 编码 为 整数 的 ， 所 以 函数 可 能 的 值 为 : 
0(NEG)，1(ZERO)，2(POS) 和 3(OTHER)。 当 x 的 值 为 NaN 时 ， 会 出 现 最 后 一 种 结果 。 





typedef enum {NEG, ZERO, POS, OTHER} range_t; 













range_t find_range(float x) 


int result; 


Lf (x, < OY 
result = NEG; 
else if (x == 0) 
result = ZERO; 
else if (x > 0) 
result = POS; 
else 
result = OTHER,; 


return result; 









a ) C 代 码 

range_t find_range(float x) 

X ID xmmO 
1 find_range: 
VXOTPS hxmmil, %xmml, %xmml Set %xmml = 0 
3 vuconmiss %xmmO ,Wxmm1 Compare 0O:x 
4 ja LE5 If >, goto neg 
s vucomiss %xmml, %xmmO Compare x:0 
6 jp .L8 If NaN, goto posornan 
7 movl $1, %eax result = ZERO 
8 je ib If =, goto done 
9 .L8: posornan: 
10 Vvucomiss .LCO(%rip) , %xmmO Compare x:0 
11 setbe  %al Set result = NN?1:0 
12 movzbl %al, %eax Zero-extend 
ke: addl $2, heax result += 2 (POS for > 0, OTHER for NaN) 
14 ret Return 
15 LB: neg: 
16 movl $0, %eax result = NEG 
17 a Ld done: 
18 rep; ret Return 








图 3-51 


b ) 产生 的 汇编 代码 
浮 点 代码 中 的 条 件 分 支 说 明 
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GCC 为 find_range 生成 图 3-51b 中 的 代码 。 这 段 代 码 的 效率 不 是 很 高 : 它 比较 了 x 
和 .0.0 三次， 即使 一 次 比较 就 能 获得 所 需 的 信息 。 它 还 生成 了 浮 点 常数 两 次 : 一 次 使 用 
vxorps， 男 一 次 从 内 存 读 出 这 个 值 。 让 我 们 追踪 这 个 函数 ， 看 看 四 种 可 能 的 比较 结果 : 

x 二 0.0 第 4 行 的 ja 分 支 指 令 会 选择 跳 转 ， 跳 转 到 结尾 ， 返 回 值 为 0。 

x 二 0.0 ja( 第 4 行 ) 和 jp( 第 6 行 ) 两 个 分 支 语 句 都 会 选择 不 跳 转 ， 但 是 je 分 支 ( 第 8 
行 ) 会 选择 跳 转 ， 以 % eax 等 于 1 返回 。 

x> 0.0 这 三 个 分 支 都 不 会 选择 跳 转 。setbe( 第 11 行 ) 会 得 到 0，addl 指令 (第 13 
行 ) 会 把 它 增加 ， 得 到 返回 值 2。 

x 一 NaN jp 分 支 ( 第 6 行 ) 会 选择 跳 转 。 第 三 个 vucomiss 指令 (第 10 行 ) 会 设置 进 
位 和 零 标志 位 ， 因 此 setbe 指令 (第 11 行 ) 和 后 面 的 指令 会 把 $s eax 设置 为 1。addl 指令 
(第 13 行 ) 会 把 它 增加 ， 得 到 返回 值 3。 

家 庭 作业 3. 73 和 3. 74 中 ， 你 需要 试 着 手动 生成 find_range 更 高 效 的 实现 。 
ER 练习 题 3. 57 函数 funct3 有 如 下 原型 : 

double funct3(int *ap, double b, long c, float *dp); 


对 于 此 函数 ，GCC 产生 如 下 代码 : 


double funct3(int *ap, double b, long c, float *dp) 
ap in: Yradi; Bb in Yrm0s ce in Yrsi, dp in Yrdx 


1 funct3: 

2 vmovss (%rdx), %xmml 

3 vevtsi2sd (Xrdi), %xmm2, %xmm2 
4 vucomisd %xmm2 , %xmmO 

5 jbe .L8 

6 vcvtsi2ssq %rsi, %xmmO, %xmmO 
7 vmulss %xmml, %xmmO0, %xmml 

8 vunpcklps %xmm1, %xmm1, %xmml 
9 vecvtps2pd %xmm1 , %xmmO 

10 ret 

11 .L8: 

12 vaddss ‘%xmmil, %xmmil, %xmmi 

13 vcvtsi2ssq %rsi, %xmmO, %xmmO 
14 vaddss %xmmi, %xmmO0, %xmmO 

15 vunpcklps %xmmO, %xmmO, %xmmO 
16 vevtps2pd %xmmO ,hxmmO 

17 ret 


写 出 funct3 的 C 版 本 。 


3.11.7 ”对 浮 点 代码 的 观察 结论 


我 们 可 以 看 到 ， 用 AVX2 为 浮 点 数 上 的 操作 产生 的 机 器 代码 风格 类 似 于 为 整数 上 的 操 
作 产生 的 代码 风格 。 它 们 都 使 用 一 组 寄存 器 来 保存 和 操作 数据 值 ， 也 都 使 用 这 些 寄 存 器 来 
传递 函数 参数 。 

当然 ， 处 理 不 同 的 数据 类 型 以 及 对 包含 混合 数据 类 型 的 表达 式 求 值 的 规则 有 许多 复杂 
之 处 ， 同 时 ，AVX2 代码 包括 许多 比 只 执行 整数 运算 的 函数 更 加 不 同 的 指令 和 格式 。 

AVX2 还 有 能 力 在 封装 好 的 数据 上 执行 并 行 操作 ， 使 计算 执行 得 更 快 。 编 译 器 开发 者 
正 致力 于 自动 化 从 标量 代码 到 并 行 代码 的 转换 ， 但 是 目前 通过 并 行 化 获得 更 高 性 能 的 最 可 








靠 的 方法 是 使 用 GCC 支持 的 、 操 纵向 量 数据 的 C 语言 扩展 。 人 参见 原 书 546 页 的 网 络 旁 注 
OPT: SIMD， 看 看 可 以 怎么 做 到 这 样 。 


3. 12 ”小结 


在 本 章 中 ， 我 们 音 视 了 C 语言 提供 的 抽象 层 下 面 的 东西 ， 以 了 解 机 器 级 编程 。 通 过 让 编译 器 产生 机 
器 级 程序 的 汇编 代码 表示 ， 我 们 了 解 了 编译 器 和 它 的 优化 能 力 ， 以 及 机 器 、 数 据 类 型 和 指令 集 。 在 第 5 
章 ， 我 们 会 看 到 ， 当 编写 能 有 效 映 射 到 机 器 上 的 程序 时 ， 了 解 编译 器 的 特性 会 有 所 帮助 。 我 们 还 更 完整 
地 了 解 了 程序 如 何 将 数据 存储 在 不 同 的 内 存 区 域 中 。 在 第 12 章 会 看 到 许多 这 样 的 例子 ， 应 用 程序 员 需 要 
知道 一 个 程序 变量 是 在 运行 时 栈 中 ， 是 在 某 个 动态 分 配 的 数据 结构 中 ， 还 是 全 局 程序 数据 的 一 部 分 。 理 
解 程序 如 何 映射 到 机 器 上 ， 会 让 理解 这 些 存储 类 型 之 间 的 区 别 容 易 一 些 。 

机 器 级 程序 和 它们 的 汇编 代码 表示 ， 与 C 程序 的 差别 很 大 。 各 种 数据 类 型 之 间 的 差别 很 小 。 程 序 是 
以 指令 序列 来 表示 的 ， 每 条 指令 都 完成 一 个 单独 的 操作 。 部 分 程序 状态 ， 如 寄存 器 和 运行 时 栈 ， 对 程序 
员 来 说 是 直接 可 见 的 。 本 书 仅 提 供 了 低级 操作 来 支持 数据 处 理 和 程序 控制 。 编 译 器 必须 使 用 多 条 指令 来 
产生 和 操作 各 种 数据 结构 ， 以 及 实现 像 条 件 、 循 环 和 过 程 这 样 的 控制 结构 。 我 们 讲述 了 C 语言 和 如 何 编 
译 它 的 许多 不 同方 面 。 我 们 看 到 C 语言 中 缺乏 边界 检查 ， 使 得 许多 程序 容易 出 现 缓冲 区 溢出 。 虽 然 最 近 
的 运行 时 系统 提供 了 安全 保护 ， 而 且 编译 器 帮助 使 得 程序 更 安全 ， 但 是 这 已 经 使 许多 系统 容易 受到 恶意 
和 人 侵 者 的 攻击 。 

我 们 只 分 析 了 C 到 x86-64 的 映射 ， 但 是 大 多 数 内 容 对 其 他 语言 和 机 器 组 合 来 说 也 是 类 似 的 。 例 如 ， 
编译 C++ 与 编译 C 就 非常 相似 。 实 际 上 ，C++ 的 早期 实现 就 只 是 简单 地 执行 了 从 C++ 到 C 的 源 到 源 的 
转换 ， 并 对 结果 运行 C 编译 器 ， 产 生 目 标 代码 。C++ 的 对 象 用 结构 来 表示 ， 类 似 于 C 的 struct。C++ 
的 方法 是 用 指向 实现 方法 的 代码 的 指针 来 表示 的 。 相 比 而 言 ，Java 的 实现 方式 完全 不 同 。Java 的 目标 代 
码 是 一 种 特殊 的 二 进 制 表示 ， 称 为 Java 字 节 代码 。 这 种 代码 可 以 看 成 是 虚拟 机 的 机 器 级 程序 。 正 如 它 的 
名 字 上 暗示 的 那样 ， 这 种 机 器 并 不 是 直接 用 硬件 实现 的 ， 而 是 用 软件 解释 器 处 理 字 节 代码 ,模拟 虚 拟 机 的 
行为 。 另 外 ， 有 一 种 称 为 及 时 编译 (just-in-time compilation) 的 方法 ,动态 地 将 字 节 代码 序列 翻译 成 机 器 
指令 。 当 代码 要 执行 多 次 时 (例如 在 循环 中 )， 这 种 方法 执行 起 来 更 快 。 用 字 节 代码 作为 程序 的 低级 表示 ， 
优点 是 相同 的 代码 可 以 在 许多 不 同 的 机 器 上 执行 ， 而 在 本 章 谈 到 的 机 器 代码 只 能 在 x86-64 机 器 上 运行 。 


参考 文献 说 明 


Intel 和 AMD 提供 了 关于 他 们 处 理 器 的 大 量 文档 。 包 括 从 汇编 语言 程序 员 角 度 来 看 硬件 的 概貌 [2， 
50]， 还 包括 每 条 指令 的 详细 参考 [3，51]。 读 指令 描述 很 复杂 ， 因 为 1) 所 有 的 文档 都 基于 Intel 汇编 代码 
格式 ，2) 由 于 不 同 的 寻 址 和 执行 模式 ， 每 条 指令 都 有 多 个 变种 ，3) 没 有 说 明 性 示例 。 不 过 这 些 文档 仍然 
是 关于 每 条 指令 行为 的 权威 参考 。 

组 织 x86-64. org 负责 定义 运行 在 Linux 系统 上 的 x86-64 代码 的 应 用 二 进 制 接口 (Applicatioin Binary 
Interface，ABI)L77]。 这 个 接口 描述 了 一 些 细节 ， 包 括 过 程 链接 、 二 进 制 代码 文件 和 大 量 的 为 了 让 机 器 
代码 程序 正确 运行 所 需要 的 其 他 特性 。 

正如 我 们 讨论 过 的 那样 ，GCC 使 用 的 ATT 格式 与 Intel 文档 中 使 用 的 Intel 格式 和 其 他 编译 器 (包括 
Microsoft 编译 器 ) 使 用 的 格式 都 很 不 相同 。 

Muchnick 的 关于 编译 器 设计 的 书 L80j 被 认为 是 关于 代码 优化 技术 最 全 面 的 参考 书 。 它 涵盖 了 许多 我 
们 在 此 讨论 过 的 技术 ， 例 如 寄存 器 使 用 规则 。 

已 经 有 很 多 文章 是 关于 使 用 缓冲 区 溢出 通过 因特网 来 攻击 系统 的 。Spafford 出 版 了 关于 1988 年 因 特 
网 蠕虫 的 详细 分 析 [105]， 而 帮助 阻止 它 传播 的 MIT 团队 的 成 员 也 出 版 了 一 些 论著 [35]。 从 那 以 后 ， 大 
量 的 论文 和 项 目 提出 了 各 种 创建 和 阻止 缓冲 区 溢出 攻击 的 方法 。Seacord 的 书 [97] 提 供 了 关于 缓冲 区 溢出 
和 其 他 一 些 对 C 编译 器 产生 的 代码 进行 攻击 的 丰富 信息 。 


家 庭 作 业 
* 3. 58 ”一 个 函数 的 原型 为 














long decode2(long x, long y, long z) ; 


GCC 产生 如 下 汇编 代码 : 
1 decode2: 

subq %rdx, %rsi 
3 imulq %rsi, %rdi 
4 movdq %rsi, %rax 
salq $63 Wrax 
6 sarqg $63, %rax 
Xorq %rdi, %rax 
8 ret 


参数 x、y 和 z 通过 寄存 器 %$rdi、%rsi 和 %rdx 传递 。 代 码 将 返回 值 存放 在 寄存 器 %rax 中 。 
写 出 等 价 于 上 述 汇 编 代码 的 decode2 的 C 代 码 。 
*3.59 下 面 的 代码 计算 两 个 64 位 有 符号 值 zx 和 y 的 128 位 乘积 ， 并 将 结果 存储 在 内 存 中 : 


typedef __int128 int128_t; 


1 起 
2 

3 void store_prod(int128_t *dest, int64_t x, int64_t y) { 
4 *dest = x * (int128_t) y; 

5 


让 
GCC 产 出 下 面 的 汇编 代码 来 实现 计算 : 


store_prod: 


1 

movq %rdx, %rax 
3 cqto 

4 movq Xrsi, %rcx 
5 Sarq $63, %rcx 

6 imulq  %rax, %rcx 
imulq  %rsi, %rdx 
8 addq %rdx, %rcx 
9 mulq %rsi 

10 addq  %rcx, %rdx 
11 movq %rax, (%rdi) 
12 movq  %rdx, 8(%rdi) 


13 ret 


为 了 满足 在 64 位 机 器 上 实现 128 位 运算 所 需 的 多 精度 计算 ， 这 段 代 码 用 了 三 个 乘法 。 描 述 用 
来 计算 乘积 的 算法 ， 对 汇编 代码 加 注释 ， 说 明 它 是 如 何 实现 你 的 算法 的 。 提 示 : 在 把 参数 zx 和 y 
扩展 到 128 位 时 ， 它 们 可 以 重 写 为 z==2%。z 十 Z1/ 和 y= 二 2%。ys 十 y/， 这 里 xz,，xi，ys 和 yy 都 是 
64 位 值 。 类 似 地 ，128 位 的 乘积 可 以 写成 p 二 2”，pi 十 p:， 这 里 ps 和 zp, 是 64 位 值 。 请 解释 这 段 
代码 是 如 何 用 x ，z,，y; 和 y, 来 计算 p, 和 pp 的 。 
*3.60 考虑 下 面 的 汇编 代码 : 


long loop(long x, int n) 


in Wrdi,. in in %esd 


1 loop: 

2 movl Wesi, Wecx 
Ei movl $1, %edx 

4 movl $0, Weax 

3 jmp shi2 

6 as 

7 movq %rdi, %r8 

8 andq %rdx, %r8 

9 orq %r8, %rax 

10 salq %cl, Wrdx 

| “区 

12 testq %rdx, %rdx 
13 jne . 工 3 


14 rep; ret 
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** 3. 61 


** 3. 62 





以 上 代码 是 编译 以 下 整体 形式 的 C 代码 产生 的 : 


long loop(long x, int n) 


1 
-i 

3 long result = 

4 long mask; 

5 for (mask = ;nmsk ;msk= )({ 
6 result |= _ 有 

夯 

8 return result; 

9 } 


你 的 任务 是 填写 这 个 C 代码 中 缺失 的 部 分 ， 得 到 一 个 程序 等 价 于 产生 的 汇编 代码 。 回 想 一 下 ， 
这 个 函数 的 结果 是 在 寄存 器 srax 中 返回 的 。 你 会 发 现 以 下 工作 很 有 帮助 : 检查 循环 之 前 、 之 中 和 
之 后 的 汇编 代码 ， 形 成 一 个 寄存 器 和 程序 变量 之 间 一 致 的 映射 。 
. 哪个 寄存 器 保存 着 程序 值 x、n、zresult 和 mask? 
.result 和 mask 的 初始 值 是 什么 ? 
. mask 的 测试 条 件 是 什么 ? 
. mask 是 如 何 被 修改 的 ? 
. result 是 如 何 被 修改 的 
F. 填写 这 段 C 代码 中 所 有 缺失 的 部 分 。 
在 3.6.6 节 ， 我 们 查看 了 下 面 的 代码 ， 作 为 使 用 条 件数 据 传送 的 一 种 选择 : 


long cread(long *xp) { 
return (xp ? *xp : 0); 


HHDONOmW> 


} 


我 们 给 出 了 使 用 条 件 传送 指令 的 一 个 尝试 实现 ,但 是 认为 它 是 不 合法 的 ， 因 为 它 试 图 从 一 个 空地 
址 读数 据 。 

写 一 个 C 函数 cread_alt， 它 与 cread 有 一 样 的 行为 ， 除 了 它 可 以 被 编译 成 使 用 条 件数 据 伟 
送 。 当 编译 时 ， 产 生 的 代码 应 该 使 用 条 件 传 送 指令 而 不 是 某 种 跳 转 指令 。 
下 面 的 代码 给 出 了 一 个 开关 语句 中 根据 枚 举 类 型 值 进行 分 支 选 择 的 例子 。 回 忆 一 下 ，C 语言 中 枚 
举 类 型 只 是 一 种 引入 一 组 与 整数 值 相 对 应 的 名 字 的 方法 。 默 认 情 况 下 ， 值 是 从 0 向 上 依次 赋 给 名 
字 的 。 在 我 们 的 代码 中 ， 省 略 了 与 各 种 情况 标号 相对 应 的 动作 。 


/* Enumerated type creates set of constants numbered 0 and upward */ 
typedef enum {MODE_A, MODE_B, MODE_C, MODE_D, MODE_E} mode._t; 


long switch3(long *p1l, long *p2, mode_t action) 
{ 

long result = 0; 

switch(action) { 

case MODE_A: 


NmwmwAAwhN 一 


ee 


case MODE_B: 


一 局 


case MODE_C : 


case MODE_D : 


case MODE_E: 


default : 


i i i a i 
‘oN oO Ww N 


} 


return result; 


DN IN IN 
N 一 品 
v 
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产生 的 实现 各 个 动作 的 汇编 代码 部 分 如 图 3-52 所 示 。 注 释 指明 了 参数 位 置 ， 寄 存 器 值 ， 以 及 





各 个 跳 转 目的 的 情况 标号 。 
pi ip Yrdi, p2 in Yrsi, action in Yedx 

1 .L8: 
2 movl $27, %eax 
3 ret 
4 3s 
和 movg (%rsi), %rax 
6 movq (hrdi) ，%rdx 
7 movq %rdx, (%rsi) 
8 ret 
要 .L5: 
10 movq (Xrdi), %rax 
11 addq (%rsi), %rax 
12 movq %rax, (%rdi) 
13 ret 
14 L6: 
15 movg $59, (%rdi) 
16 movq (%rsi), %rax 
17 ret 
18 Er: 
19 movq (Xrsi) ，%rax 
20 movq  %rax, (%rdi) 
21 movl $27, %eax 
22 ret 
23 95 
24 movl $12, %eax 


MODE_E 


MODE_A 


MODE_B 


MODE_C 


MODE_D 


default 





图 3-52 家庭 作 业 3. 62 的 汇编 代码 。 这 段 代码 实现 了 switch 语句 的 各 个 分 支 


填写 C 代码 中 缺失 的 部 分 。 代 码 包括 落 人 其 他 情况 的 情况 ， 试 着 重建 这 个 情况 。 
**3.63 ”这 个 程序 给 你 一 个 机 会 ， 从 反 汇编 机 器 代码 逆向 工程 一 个 switch 语句 。 在 下 面 这 个 过 程 中 ， 去 掉 


了 switch 语句 的 主体 : 


long result = x; 
switch(n) { 


了 


i 
2 
3 
4 
5 
6 
过 return result; 
8 


} 


long switch_prob(long x, long n) { 


/* Fill in code here */ 


图 3-53 给 出 了 这 个 过 程 的 反 汇 编 机 器 代码 。 
跳 转 表 驻 留 在 内 存 的 不 同 区 域 中 。 可 以 从 第 5 行 的 间接 跳 转 看 出 来 ， 跳 转 表 的 起 始 地 址 为 0x 
4006f8。 用 调试 器 GDB， 我 们 可 以 用 命令 x/6gx 0x4006f8 来 检查 组 成 跳 转 表 的 6 个 8 字 节 字 的 内 


存 。GDB 打印 出 下 面 的 内 容 : 
(gdb) x/6gx Ox4006f8 


0Ox4006f8 : Ox00000000004005al 
0x400708: Ox00000000004005al 
Ox400718: Ox00000000004005b2 


Ox00000000004005c3 
0x00000000004005aa 
Ox00000000004005bf 


用 C 代码 填写 开关 语句 的 主体 ， 使 它 的 行为 与 机 器 代码 一 致 。 
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** 3. 64 


“8..65 








long switch_prob(long x, long n) 


x in Xrdi, a in Xiai 





1 0000000000400590 <switch_prob>: 
400590: 48 83 ee 3c sub $Ox3c,%rsi 
3 400594: 48 83 fe 05 cmp $Ox5,%rsi 
4 400598: 77 29 ja 4005c3 <switch_prob+0x33> 
5 40059a: ff 24 f5 f8 06 40 00 jmpq  *0x4006f8(,%rsi,8) 
6 4005al: 48 8d 04 fd 00 00 00 lea Ox0(,%rdi,8),%rax 
x 4005a8: 00 
8 4005a9: c3 retq 
9 4005aa: 48 89 f8 mov %rdi,%rax 
10 4005ad: 48 cl f8 03 sar $Ox3,%rax 
11 4005b1: c3 retq 
1 4005b2: 48 89 f8 mov urdi, Vrax 
13 4005b5: 48 cl e0 04 shl $Ox4,%rax 
14 4005b9: 48 29 f8 sub %rdi,%rax 
15 4005bc: 48 89 c7 mov %rax,%rdi 
16 4005bf: 48 Of af ff imul Xrdi rai 
17 4005c3: 48 8d 47 4b lea Ox4b(%rdi) ,rax 
18 4005c7: c3 retq 
图 3-53 ”家 庭 作业 3. 63 的 反 汇编 代码 


考虑 下 面 的 源 代码 ， 这 里 R、S 和 了 都 是 用 #define 声明 的 常数 : 
long A[R] [S] [T] ; 


1 
Es 
3 
4 
5 
6 
7 


oO Nom hhw PN 一 


二 © 


1 过 


long store_ele(long i, long j, long k, long *dest) 


所 


*dest = A[i] [j] [k]; 
return sizeof(A) ; 


} 


在 编译 这 个 程序 中 ，GCC 产生 下 面 的 汇编 代码 : 


long store_ele(long i, long j, long k, long *dest) 


i in Wrdi, Fin Xrei, k in Yrdx, dest dn Vrer 


store_ele: 
leaq (Xrsi,%rsi,2), %rax 
leaq (Xrsi,%rax,4), %rax 
movdq %rdi, %rsi 
salq $6, %rsi 
addq Wrsi, Xrdi 
addq Yrax, Wras 
addq %rdi, %rdx 
movVdq A(,%rdx,8), %rax 
movqg WE (Lrc) 
movl $3640，,，%eax 
ret 


A. 将 等 式 (3.1) 从 二 维 扩 展 到 三 维 ， 提 供 数组 元 素 A[i] [j] [k] 的 位 置 的 公式 。 
B. 运用 你 的 逆向 工程 技术 ,根据 汇编 代码 ,确定 RR、S 和 T 荆 的 值 。 
下 面 的 代码 转 置 一 个 MX M 和 矩阵 的 元 素 ， 这 里 M 是 一 个 用 #define 定义 的 常数 : 


1 
2 
3 
4 
§ 
6 
交 
8 
9 


void transpose(long A[M] [M]) { 
Long &, J 
for (i = 0; i < M; i++) 


far 0 OI 4 
long t = A[i] [j]; 
A[i] [j] = AD] [i]; 
ATjIEY Sy 
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当 用 优化 等 级 -01 编译 时 ，GCC 为 这 个 函数 的 内 循环 产生 下 面 的 代码 : 


1 ,6 : 

2 movdq (az 5 WEcx 
3 movg (Xrax), %rsi 
4 movq %rsi，(〈%Trdx) 
5 movq Xrcx, (%rax) 
6 addq $8, %rdx 

7 addq $120, %rax 

8 cmpq %rdi, %rax 

9 jne 6 


我 们 可 以 看 到 GCC 把 数组 索引 转换 成 了 指针 代码 。 
A. 哪个 寄存 器 保存 着 指向 数组 元 素 A[i] [j] 的 指针 ? 
B. 哪个 寄存 器 保存 着 指向 数组 元 素 A[j] [i] 的 指针 ? 
C. M 的 值 是 多 少 ? 
*3.66 考虑 下 面 的 源 代码 ， 这 里 NR 和 NC 是 用 #define 声明 的 宏 表达 式 ， 计 算 用 参数 ”表示 的 矩阵 A 的 
维度 。 这 段 代码 计算 矩阵 的 第 7 列 的 元 素 之 和 。 
long sum_col(long n, long A[NR(n)] [NC(n)], long j) { 


1 

2 long i; 

EE long result = 0; 

4 for (i = 0; i < NR(n); i++) 
5 result += A[i] [j]; 

6 return result; 

7 证 


编译 这 个 程序 ，GCC 产生 下 面 的 汇编 代码 : 
long sum_col(long n, long A[NR(n)] [NC(n)], 1ong j) 
n in Yrdi, A in Yrsi, j in Xrdx 

sum_col: 


1 

bp leag 1(,%rdi,4), %r8 

3 leaq (Xrdi,%rdi,2), %rax 
4 movq %rax, %rdi 
testq  %rax, %rax 

6 jle .L4 

7 salq $3, %r8 

8 leaq (%rsi,%rdx,8), %rcx 
9 movl $0, %eax 

10 movl $0, %edx 

11 二 35 

12 addq (%rcx), %rax 

13 addq $1, %rdx 

14 addq %r8, %rcx 

15 cmpq %rdi, %rdx 

16 jne .L3 

17 rep; ret 

18 .L4: 

19 movl $0, heax 

20 ret 


运用 你 的 逆向 工程 技术 ， 确 定 NR 和 NC 的 定义 。 
#3.67 这 个 作业 要 查看 GCC 为 参数 和 返回 值 中 有 结构 的 函数 产生 的 代码 ， 由 此 可 以 看 到 这 些 语言 特性 通 
常 是 如 何 实现 的 。 
下 面 的 C 代码 中 有 一 个 函数 process， 它 用 结构 作为 参数 和 返回 值 ， 还 有 一 个 函数 eval， 它 
调用 process: 


typedef struct { 
2 long a[2]; 
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long *p; 
} strAh; 


3 
4 
5 
6 typedef struct { 
pi 
8 


long u[2]; 
long qi; 
9 } StrB; 
10 
11 strB process(strA s) { 
12 StEB rs 
13 r.u[0] = s.a[1l]; 
14 r.u[1] = s.a[0]; 
申 r.q = *S.p; 
16 return r; 
入 
18 
19 long eval(long x, long y, long z) { 
20 strA s; 
21 s.a[0] = x; 
22 s.a[1] = y; 
23 s.p = &2z; 
24 strB r = process(s); 
25 return r.u[0] + r.u[1l] + r.q; 
26 } 
GCC 为 这 两 个 函数 产生 下 面 的 代码 : 


StrB Process(str4 s) 
1 process: 

2 movq %rdi, %rax 

3 movq 24(%rsp), %rdx 
4 movq (%rdx), %rdx 

5 movq 16(%rsp), %rcx 
6 movdq WL (Vrdi) 

7 movq 8(%rsp), %rcx 
8 movq %rcx, 8(%rdi) 

9 movq  %rdx, 16(%rdi) 
0 


1 ret 


long eval(long x, long y, long 2z) 
i as Fn Wiad. Zin Wds 

1 eval: 

p subq $104, %rsp 

3 movdq %rdx, 24(%rsp) 
4 leaq 24(%rsp), %rax 
5 movq %rzdi，(Crsp) 

6 movq %rsi, 8(%rsp) 
7 movq %rax, 16(%rsp) 
8 leaq 64(%rsp), %rdi 
9 


call process 
10 movq 72(%rsp), %rax 
| addq 64(%rsp), %rax 
12 addq 80(%rsp), %rax 
13 addq $104, %rsp 
14 ret 


A. 从 eval 函数 的 第 2 行 我 们 可 以 看 到 ， 它 在 栈 上 分 配 了 104 个 字 节 。 画 出 eval 的 栈 帧 ， 给 出 它 
在 调用 process 前 存储 在 栈 上 的 值 。 

B. eval 调用 process 时 传递 了 什么 值 ? 

C. process 的 代码 是 如 何 访问 结构 参数 s 的 元 素 的 ? 

D. process 的 代码 是 如 何 设置 结果 结构 r 的 字段 的 ? 
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E. 完成 eval 的 栈 帧 图 ,给 出 在 从 process 返回 后 eval 是 如 何 访问 结构 r 的 元 素 的 。 
F. 就 如 何 传递 作为 函数 参数 的 结构 以 及 如 何 返 回 作为 函数 结果 的 结构 值 ， 你 可 以 看 出 什么 通用 的 
原则 ? 
可 3.68 在 下 面 的 代码 中 ，A 和 B 是 用 # define 定义 的 常数 : 


typedef struct { 


1 
int x[A] [B]; /* Unknown constants A and B */ 
3 long y; 

a Batels 

5 

6 typedef struct { 

char array[B] ; 

8 int t; 

9 short s[A]; 

10 long u; 

11 } str2; 


刍 
13 void setVal(strl *p, str2 *q) { 


14 long vi = q->t,; 
15 long v2 = q->u; 
16 D->y = Vi+v2; 
jE 。 


GCC 为 setVal 产生 下 面 的 代码 


void setVal(stri *p, str2 *q) 


pin Yrdi, gq in Mai 


1 setVal: 

2 movslq 8(%rsi), %rax 

3 addq 32(%rsi), %rax 
4 movdq %rax, 184(%rdi) 
5 ret 


A 和 6B 的 值 是 多 少 ?( 管 案 是 唯一 的 。) 
学 3.69 你 负责 维护 一 个 大 型 的 C 程序 ， 遇 到 下 面 的 代码 : 


1 typedef struct { 

2 int first; 

3 a_struct a[CNT] ; 
4 int last; 

5 }b_struct; 
6 

8 

9 


void test(long i, b_struct *bp) 
{ 
int n = bp->first + bp->last; 
10 a_struct *ap = &bp->al[il]; 
11 ap->x[ap->idx] = 1; 
12 } 


编译 时 常数 CNT 和 结构 a_struct 的 声明 是 在 一 个 你 没有 访问 权限 的 文件 中 。 幸 好 ， 你 有 代 
码 的 “.o" 版 本 ， 可 以 用 OBJDUMP 程序 来 反 汇 编 这 些 文件 ， 得 到 下 面 的 反 汇 编 代 码 : 


void test(long i, b_struct *bp) 
i in Yrdi, bp im Yrsi 


0000000000000000 <test>: 


1 

2 0: 8b 8e 20 01 00 00 mov Ox120(%rsi) ,%ecx 

3 6: 03 0e add (Xrsi),%ecx 

4 8: 48 8d 04 bf lea (Xrdi,%rdi,4),%rax 
c: 48 8d 04 c6 lea (rsi,%rax,8),%rax 
6 10: 48 8b 50 08 mov Ox8(%rax) ,%rdx 

7 14: 48 63 c9 movslq %ecx,%rcx 
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** 3. 70 


| 


#3 2 


8 17: 48 89 4c d0 10 mov Wrcx,Ox10(%rax, %rdx,8) 
9 Les c3 retq 


运用 你 的 逆向 工程 技术 ， 推 断 出 下 列 内 容 : 
A. CNT 的 值 。 
B. 结构 a_struct 的 完整 声明 。 假 设 这 个 结构 中 只 有 字段 idx 和 x， 并 且 这 两 个 字段 保存 的 都 是 
有 符号 值 。 
考虑 下 面 的 联合 声明 : 
1 union ele { 
区 struct { 
3 long *p; 
于 long y; 
当 } es 
6 struct { 
7 long Xi 
8 union ele *next; 
9 } e2; 
ww “条 


这 个 声明 说 明 联 合 中 可 以 嵌 套 结构 。 
下 面 的 函数 (省 略 了 一 些 表达 式 ) 对 一 个 链表 进行 操作 ， 链 表 是 以 上 述 联 合作 为 元 素 的 


1 void proc (union ele *up) { 


， up-> = *( ES 
3 六 
A. 下 列 字段 的 偏 移 量 是 多 少 ( 以 字 节 为 单位 ): 
el.P 二 
el.y 
e2.x a 
e2.next 


B. 这 个 结构 总 共和 需要 多 少 个 字 节 ? 
C. 编译 器 为 proc 产生 下 面 的 汇编 代码 : 


void proc (union ele *up) 


up iD %rdi 

1 proc: 

2 movq 8(Xrdi), %rax 
3 movdq (%rax), %rdx 

4 movq (Xrdx), %rdx 

8 subq 8(%rax), %rdx 
6 movq %rdx, (%rdi) 

7 ret 


在 这 些 信 息 的 基础 上 ， 填 写 proc 代码 中 缺失 的 表达 式 。 提 示 : 有 些 联合 引用 的 解释 可 以 有 歧义 。 
当 你 清楚 引用 指引 到 哪里 的 时 候 ， 就 能 够 澄清 这 些 歧义 。 只 有 一 个 答案 ， 不 需要 进行 强制 类 型 转 
换 ， 且 不 违反 任何 类 型 限制 。 
写 一 个 函数 good_echo， 它 从 标准 输入 读 取 一 行 ， 再 把 它 写 到 标准 输出 。 你 的 实现 应 该 对 任意 长 
度 的 输入 行 都 能 工作 。 可 以 使 用 库 函 数 fgets， 但 是 你 必须 确保 即使 当 输 入 行 要 求 比 你 已 经 为 组 
冲 区 分 配 的 更 多 的 空间 时 ， 你 的 函数 也 能 正确 地 工作 。 你 的 代码 还 应 该 检查 错误 条 件 ， 要 在 遇 到 
错误 条 件 时 返回 。 参 考 标 准 I/O 函数 的 定义 文档 [45，61]。 
图 3-54a 给 出 了 一 个 函数 的 代码 ， 该 函数 类 似 于 函数 vfunct( 图 3-43a) 。 我 们 用 vfunct 来 说 明 过 
帧 指针 在 管理 变 长 栈 帧 中 的 使 用 情况 。 这 里 的 新 函数 aframe 调用 库 函 数 alloca 为 局 部 数组 p 分 
配 空间 。alloca 类 似 于 更 常用 的 函数 malloc， 区 别 在 于 它 在 运行 时 栈 上 分 配 空间 。 当 正在 执行 
的 过 程 返回 时 ， 该 空间 会 自动 释放 。 

图 3-54b 给 出 了 部 分 的 汇编 代码 ， 建 立 帧 指针 ， 为 局 部 变量 i 和 p 分配 空 间 。 非 常 类 似 于 


#9 73 


“* 3. 74 


:75 
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vframe 对 应 的 代码 。 在 此 使 用 与 练习 题 3. 49 中 同样 的 表示 法 : 栈 指针 在 第 4 行 设 置 为 值 ;; ， 在 
第 7 行 设置 为 值 y 。 数 组 p 的 起 始 地 址 在 第 9 行 被 设置 为 值 p。s: 和 zp 之 间 可 能 有 额外 的 空间 e;， 
数组 P 结 尾 和 之 间 可 能 有 额外 的 空间 e 。 

A. 用 数学 语言 解释 计算 *: 的 逻辑 。 

B. 用 数学 语言 解释 计算 p 的 逻辑 。 

C. 确定 使 e: 的 值 最 小 和 最 大 的 上 和 s: 的 值 。 

D. 这 段 代 码 为 ;和 p 的 值 保 证 了 怎样 的 对 齐 属 性 ? 








#include <alloca.h> 


1 

2 

3 long aframe(long n, long idx, long *q) 【Tf 
4 long i; 

5 long **p = alloca(n * sizeof(long *)); 
6 p[0] = &i; 

7 for (i= 1; i < ni i++) 

8 BL) = 

9 return *p[idx]; 

10 3 





a ) C 代 码 





long aframe(long n, long idx, long *q) 


ni Wa dR 2 Mal, § di Xdx 


aframe: 





1 
2 pushq  %rbp 
3 movq %rsp, %rbp 
4 subq $16, %rsp Allocate space for i (%rsp = $1) 
5 leaq 30(,%rdi,8), %rax 
6 andq $-16, %rax 
a Subq %rax, %rsp Allocate space for array p (Yrsp = 52) 
8 leaq 15(%rsp), %r8 
名 andq $-16, %r8 Set %r8 to &p[0] 
‘ee = Be TPA A 





b ) 部 分 生成 的 汇编 代码 
图 3-54 家庭 作业 3. 72 的 代码 。 该 函数 类 似 于 图 3-43 中 的 函数 


用 汇编 代码 写 出 匹配 图 3-51 中 函数 find_range 行为 的 函数 。 你 的 代码 必须 只 包含 一 个 浮 点 比较 
指令 ， 并 用 条 件 分 支 指令 来 生成 正确 的 结果 。 在 2” 种 可 能 的 参数 值 上 测试 你 的 代码 。 网 络 旁 注 
ASM:EASM 描述 了 如 何在 C 程序 中 散人 汇编 代码 。 

用 汇编 代码 写 出 匹配 图 3-51 中 函数 find_range 行为 的 函数 。 你 的 代码 必须 只 包含 一 个 浮 点 比较 
指令 ， 并 用 条 件 传送 指令 来 生成 正确 的 结果 。 你 可 能 会 想 要 使 用 指令 cmovp( 如 果 设 置 了 偶 校 验 位 
传送 ) 。 在 22 种 可 能 的 参数 值 上 测试 你 的 代码 。 网 络 旁 注 ASM:EASM 描述 了 如 何在 C 程序 中 其 
和 人 汇编 代码 。 

ISO C99 包括 了 支持 复数 的 扩展 。 任 何 浮 点 类 型 都 可 以 用 关键 字 complex 修饰 。 这 里 有 一 些 使 用 
复数 数据 的 示例 函数 ， 调 用 了 一 些 关联 的 库 函 数 : 

#include <complex.h> 

double c_imag(double complex x) { 


return cimag(x); 


} 


double c_real(double complex x) { 
return creal(x); 
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11 double complex c_sub(double complex x, double complex y) { 
12 return 于 一 


EF 
编译 时 ，GCC 为 这 些 函 数 产 生 如 下 代码 : 


double c_imag(double complex x) 
1 c_imag: 
有 movapd %xmml, %xmmO 
3 ret 


double c_real(double complex x) 
4 c_real: 


5 rep; ret 


double complex c_sub(double complex x, double complex y) 


6 c_sub: 
及 subsd %xmm2, %xmmO 
8 subsd %xmm3, %hxmm1l 
9 ret 


根据 这 些 例子 ， 回 答 下 列 问题 : 
A. 如 何 向 函数 传递 复数 参数 ? 
B. 如 何 从 函数 返回 复数 值 ? 


练习 题 答案 
3. 1 这 个 练习 使 你 熟悉 各 种 操作 数 格式 。 


3 必 


3.3 





$0x108 










OXAB 地 址 0x104 


Ox11 地 址 0x10C 

260 ($rcx, Srdx) 0x13 地 址 0x108 
OXFC (, Srcx, 4) OxFF 地 址 0x100 
(Srax, Srdx, 4) 0x11 地 址 0x10C 


正如 我 们 已 经 看 到 的 ，GCC 产生 的 汇编 代码 指令 上 有 后 级 ， 而 反 汇 编 代码 没有 。 能 够 在 这 两 种 形 
式 之 间 转 换 是 一 种 很 重要 的 需要 学 习 的 技能 。 一 个 重要 的 特性 就 是 ，x86-64 中 的 内 存 引 用 总 是 用 
四 字 长 寄存 器 给 出 ， 例 如 %rax， 哪 怕 操 作 数 只 是 一 个 字 节 、 一 个 字 或 是 一 个 双 字 。 

这 里 是 带 后 缀 的 代码 : 


movl %eax, (%rsp) 

movw (Xrax), %dx 

movb $0OxFF, %bl 

movb (Xrsp,%rdx,4), %dl 
movq (%rdx), %rax 

movw  %dx, (%rax) 


由 于 我 们 会 依赖 GCC 来 产生 大 多 数 汇编 代码 ， 所 以 能 够 写 正确 的 汇编 代码 并 不 是 一 项 很 关键 的 技 
能 。 但 是 ， 这 个 练习 会 帮助 你 熟悉 不 同 的 指令 和 操作 数 类 型 。 


4 (Srax) 









9(%rax, Srdx) 
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下 面 给 出 了 有 错误 解释 的 代码 : 


$OxF, (%ebx) 
%rax, (Xrsp) 
(%rax) ,4(%rsp) 
Wal,%sl 

%rax, $0Ox123 
Xeax, %rdx 

%si, 8(%rbp) 


movb 
movl 
movw 
movb 
movdq 
movl 
movb 


Cannot use Yebx as address register 

Mismatch between instruction suffix and register ID 

Cannot have both source and destination be memory references 
No register named %sl 

Cannot have immediate as destination 

Destination operand incorrect size 

Mismatch between instruction suffix and register ID 


这 个 练习 给 你 更 多 经 验 ， 关 于 不 同 的 数据 传送 指令 ,以 及 它们 与 C 语言 的 数据 类 型 和 转换 规则 的 


关系 。 





























unsigned char 


unsigned 





long 









short 




















SrG 七 dest t 令 注释 
long long movq (%$rdi), Srax 读 8 个 字 节 
movg Srax, (Srsi) 
char int novsbl (%rdi), Seax 将 char 转换 成 int 








movzbl (%$rdi) ,geax 
movg Srax, (Srsi) 


movl (%$rdi),%eax 


movb %al, (%rsi) 


unsigned movl (srdi) ,gseax 
char movb %al, (%rsi) 


movsbw (%rdi),%Sax 


movw %Sax, (Srsi) 










movl] Seax, (Srsi) 存 4 个 字 节 
unsigned movsbl (%rdi), Seax 将 char 转换 成 int 
mov] Seax, (%rsi) 存 4 个 字 节 





读 一 个 字 节 并 零 扩展 
存 8 个 字 节 
读 4 个 字 节 
存 低位 字 节 
读 4 个 字 节 
存 低位 字 节 
读 一 个 字 节 并 符号 扩展 
存 2 个 字 节 




















3.5 逆向 工程 是 一 种 理解 系统 的 好 方法 。 在 此 ， 我 们 想 要 逆转 C 编译 器 的 效果 ， 来 确定 什么 样 的 C 代 
袜 会 得 到 这 样 的 汇编 代码 。 最 好 的 方法 是 进行 “模拟 "， 从 值 x>、y 和 z 开始 ， 它 们 分 别 在 指针 xp、 
ypP 和 zp 指定 的 位 置 。 于 是 ， 我 们 可 以 得 到 下 面 这 样 的 效果 : 


void decodel(long *xp, long *yp, long *zp) 


Xp in Yrdi, yp in Yrsi; zp in Xrdx 


decodel: 

movg 
movg 
movg 
movg 
moVdq 
movdq 
ret 


(%rdi), %r8 
(%rsi), %rcx 
(Xrdx) , %rax 
%r8, (Xrsi) 
Wrcx, (%rdx) 
Xrax, (%rdi) 


由 此 可 以 产生 下 面 这 样 的 C 代码 : 


void decodel(long *xp, long *yp, 


t 
long x 
long y 
long z 


Wp 二 
*Zp = 
*Xp = 


= *Xxp; 
= *yp; 
= *ZPp; 
Xx; 
y; 
Z， 


Get x = *xp 

Get y = *yp 

Get Z = *zp 

Store x at yp 

Store y at zp 

Store 2Z at xp 
long *ZP) 
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3:6 


名 双 


3.8 


针 和 9 


3: J 





这 个 练习 说 明了 leaq 指令 的 多 样 性 ， 同 时 也 让 你 更 多 地 练习 解读 各 种 操作 数 形式 。 虽 然 在 图 3-3 
中 有 的 操作 数 格式 被 划分 为 “内 存 ” 类 型 ， 但 是 并 没有 访 存 发 生 。 













leaq 6(%rax), Srdx 




















leaq (Srax, Srcx), Srdx 充 十 3 
leaq (Srax, Srcx, 4), Srdx 无 十 4y 
leaq 7 (%rax, Srax, 8), Srdx 7 十 9> 





leaq 0xRA (, Srcx, 4), Srdx 












leaq 9(%rax, Srcx,2), Srdx 








逆向 工程 再 次 被 证 明 是 学 习 C 代码 和 生成 的 汇编 代码 之 间 关 系 的 有 用 方式 。 
解决 此 类 型 问题 的 最 好 方式 是 为 汇编 代码 行 加 注释 ， 说 明正 在 执行 的 操作 信息 。 下 面 是 一 个 
例子 : 


long scale2(long x, long y, long 2z) 


x in Xrdi, y in Xrsi, 2 in Xrdx 


scale2: 
leaq (Xrdi,%rdi,4), %rax 
leaq (Xrax, rsi,2), rax 5*xXxX+2*y 
leaq (Xrax, rdx,8), rax 5#X+2F*#y+8*Z 
ret 


由 此 很 容易 得 到 缺失 的 表达 式 : 


long t=5*xX+2*y+8*Zz; 


这 个 练习 使 你 有 机 会 检验 对 操作 数 和 算术 指令 的 理解 。 指 令 序列 被 设计 成 每 条 指令 的 结果 都 不 会 影 
响 后 续 指令 的 行为 。 






subq %rdx, 8 (%rax) 





imulq $16, (%rax, Srdx, 8) 


incq 16(%rax) 


decq %rcx 








Srcx 0x0 








Subqg Srdx,%rax Srax OXFD 











这 个 练习 使 你 有 机 会 生成 一 点 汇编 代码 。 答 案 的 代码 由 GCC 生成 。 将 参数 n 加 载 到 寄存 器 $ecx 
中 ， 它 可 以 用 字 节 寄存 器 $cl 来 指定 sarl 指令 的 移 位 量 。 使 用 movl 指令 看 上 去 有 点 儿 奇 怪 ， 因 为 
n 的 长 度 是 8 字 节 ， 但 是 要 记 住 只 有 最 低位 的 那个 字 节 才 指示 着 移 位 量 。 

long shift_left4_rightn(long x, long DJ) 

re dn ndi, 1. 1a Vrei 
shift_left4_rightn: 


movdq Wrai,. Xrax Get ¥ 

salq $4, %rax x <<= 4 

movl Wesi, Wecx Get n (4 bytes) 
sarq %cl, %rax Xx >>= 1 


这 个 练习 比较 简单 ， 因 为 汇编 代码 基本 上 沿用 了 C 代码 的 结构 。 


long tl =x | y; 
long t2 = tl >> 3; 
long t3 ~ 
long t4 = 2z-t3; 
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8: 这 


3. 14 


:十 癌 


A. 这 个 指令 用 来 将 寄存 器 srdx 设置 为 0， 运 用 了 对 任意 zx，z^z=0 这 一 属性 。 它 对 应 于 C 语句 x=0。 

B. 将 寄存 器 srdx 设置 为 0 的 更 直接 的 方法 是 用 指令 movq $0, Srdx。 

C. 不 过 ， 汇 编 和 反 汇 编 这 段 代码 ， 我 们 发 现 使 用 xorq 的 版 本 只 需要 3 个 字 节 ， 而 使 用 movq 的 版 
本 需要 7 个 字 节 。 其 他 将 %$rdx 设置 为 0 的 方法 都 依赖 于 这 样 一 个 属性 ， 即 任何 更 新 低位 4 字 节 
的 指令 都 会 把 高 位 字 节 设置 为 0。 因 此 ， 我们 可 以 使 用 xorl % edx,% edx(2 字 节 ) 或 movl 
$0,% edx(5 字 节 )。 

我 们 可 以 简单 地 把 cqto 指令 替换 为 将 寄存 器 srdx 设置 为 0 的 指令 ,并且 用 divq 而 不 是 idaiva 作 

为 我 们 的 除法 指令 ， 得 到 下 面 的 代码 : 
void uremdiv(unsigned long x, unsigned long y, 


unsigned long *qp, unsigned long *rp) 


i 区 


1 uremdiv: 

bp movdq ME MNES Copy gp 

movg %rdi, %rax Move x to lower 8 bytes of dividend 
4 movl $0, %edx Set upper 8 bytes of dividend to 0 
5 divg Wrsi Divide by y 

6 movdq %rax, (%r8) Store quotient at gp 

7 movg %rdx, (%rcx) Store remainder at rp 

8 ret 


汇编 代码 不 会 记录 程序 值 的 类 型 ， 理 解 这 点 这 很 重要 。 相 反 地 ， 不同 的 指令 确定 操作 数 的 大 小 以 
及 是 有 符号 的 还 是 无 符号 的 。 当 从 指令 序列 映射 回 C 代码 时 ， 我们 必须 做 一 点 儿 侦查 工作 ， 推 断 


程序 值 的 数据 类 型 。 

A. 后 级 “1 和 寄存 器 指示 符 表 明 是 32 位 操作 数 ， 而 比较 是 对 补 码 的 < 。 我 们 可 以 推断 data_t 一 
定 是 int。 

B. 后 级 'w’ 和 寄存 器 指示 符 表 明 是 16 位 操作 数 ， 而 比较 是 对 补 码 的 >= 。 我 们 可 以 推断 data t 一 
定 是 short。 


C, 后 组 “b: 和 寄存 器 指示 符 表明 是 8 位 操作 数 ， 而 比较 是 对 无 符号 数 的 <= 。 我 们 可 以 推断 data 上 
一 定 是 unsigned char。 


.D. 后 缀 "9 和 寄存 器 指示 符 表明 是 64 位 操作 数 ， 而 比较 是 != ， 有 符号 、 无 符号 和 指针 参数 都 是 


一 样 的 。 我 们 可 以 推断 data t 可 以 是 long、unsigned long 或 者 某 种 形式 的 指针 。 
这 道 题 与 练习 题 3. 13 类 似 , 不 同 的 是 它 使 用 了 TEST 指令 而 不 是 CMP 指令 。 
A. 后 级 'q’ 和 寄存 器 指示 符 表 明 是 64 位 操作 数 ， 而 比较 是 >= ， 一 定 是 有 符号 数 。 我 们 可 以 推断 
data 革 一 定 是 1ong。 ， 
B. 后 缀 'w 和 寄存 器 指示 符 表明 是 16 位 操作 数 ， 而 比较 是 ==， 这 个 对 有 符号 和 无 符号 都 是 一 样 
的 。 我 们 可 以 推断 data 七 一 定 是 short 或 者 unsigned short。 
C. 后 缀 "b: 和 寄存 器 指示 符 表 明 是 8 位 操作 数 ， 而 比较 是 针对 无 符号 数 的 > 。 我 们 可 以 推断 data 上 
一 定 是 unsigned char。 
D. 后 级 “1 和 寄存 器 指示 符 表 明 是 32 位 操作 数 ， 而 比较 是 <= 。 我 们 可 以 推断 data t 一定 是 int。 
这 个 练习 要 求 你 仔细 检查 反 汇编 代码 ， 并 推理 跳 转 目标 的 编码 。 同 时 练习 十 六 进 制 运算 。 
A. je 指令 的 目标 为 0x4003fc+ 0x02。 如 原始 的 反 汇 编 代码 所 示 ， 这 就 是 0x4003fe。 
4003fa: 74 02 je 4003fe 
4003fc: ff d0 callq *%rax 
B， jb 指令 的 目标 是 0x400431 一 12( 由 于 0xf4 是 一 12 的 一 个 字 节 的 补 码 表示 )。 正 如 原始 的 反 汇 
编 代码 所 示 ， 这 就 是 0x400425: 
40042f: 74 f4 je 400425 
400431: 5d pop  %rbp 


C. 根据 反 汇编 器 产生 的 注释 ， 跳 转 目 标 是 绝对 地 址 0x400547。 根 据 字 节 编码 ,一 定 在 距离 pop 
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指令 0x2 的 地 址 处 。 减 去 这 个 值 就 得 到 地 址 0x400545。 注 意 ，ja 指令 的 编码 需要 2 个 字 节 ， 
它 一 定位 于 地 址 0x400543 处 。 检 查 原 始 的 反 汇 编 代码 也 证 实 了 这 一 点 : 


400543: 77 02 ja 400547 
400545: 5d pop Yrbp 


D. 以 相反 的 顺序 来 读 这 些 字 节 , 我 们 看 到 目标 偏 移 量 是 0xffffff73， 或 者 十 进 制 数 一 141。 
0x4005ed(nop 指令 的 地 址 ) 加 上 这 个 值得 到 地 址 0x400560: 


4005e8: e9 73 ff ff ff jmpq 400560 
4005ed: 90 nop 


对 汇编 代码 写 注释 ， 并 且 模 仿 它 的 控制 流 来 编写 C 代码 ， 是 理解 汇编 语言 程序 很 好 的 第 一 步 。 本 
题 是 一 个 具有 简单 控制 流 的 示例 ， 给 你 一 个 检查 逻辑 操作 实现 的 机 会 。 
A. 这 里 是 C 代码: 


void goto_cond(long a, long *p) { 
if (p == 0) 
goto done; 
if (*p >= a) 
goto done; 
*p = a; 
done: 
return; 


} 


B. 第 一 个 条 件 分 支 是 && 表达 式 实现 的 一 部 分 。 如 果 对 p 为 非 空 的 测试 失败 ， 代 码 会 跳 过 对 a>*p 
的 测试 。 

这 个 练习 帮助 你 思考 一 个 通用 的 翻译 规则 的 思想 以 及 如 何 应 用 它 。 

A, 转换 成 这 种 替代 的 形式 ， 只 需要 调换 一 下 几 行 代码 : 


long gotodiff_se_alt(long x, long y) 并 
long result; 
if (x < y) 
goto x_lt_y; 
ge_cnt++; 
result = X - y; 
return result; 
Lt yy 
Tb.cnt++:; 
result = y- Xi; 
return result; 


} 


B. 在 大 多 数 情况 下 ， 可 以 在 这 两 种 方式 中 任意 选择 。 但 是 原来 的 方法 对 常见 的 没有 else 语句 的 
情况 更 好 一 些 。 对 于 这 种 情况 ， 我 们 只 用 简单 地 将 翻译 规则 修改 如 下 : 
t= lestexpr; 
if (!t) 
goto done; 


then-statement 
done: 


基于 这 种 替代 规则 的 翻译 更 麻烦 一 些 。 
这 个 题目 要 求 你 完成 一 个 嵌 套 的 分 支 结构 ， 在 此 你 会 看 到 如 何 使 用 翻译 if 语句 的 规则 。 大 部 分 情 
况 下 ， 机 器 代码 就 是 C 代码 的 直接 翻译 。 
long test(long x, long y, long z) { 
long val = x+y+2z; 
if (x < -3) { 
if (y < z) 
val = x*y; 
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else 
Val = y*zZz; 
} else if (x > 2) 
Val = Xx*Z; 


return val; 


} 


3.19 ”这 道 题 巩 固 加 强 了 我 们 计算 预测 错误 处 罚 的 方法 。 
A. 可 以 直接 应 用 公式 得 到 Typ 二 2X (31 一 16) 二 30。 
B. 当 预 测 错误 时 ， 函 数 会 需要 大 概 16 十 30 王 46 个 周期 。 
3.20 这 道 题 提 供 了 研究 条 件 传 送 使 用 的 机 会 。 
A. 运算 符 是 “/*。 可 以 看 到 这 是 一 个 通过 右 移 实现 除 以 2 的 3 次 宕 的 例子 ( 见 2. 3.7 节 )。 在 移 位 
& 一 3 之 前 ， 如 果 被 除数 是 负数 的 话 ， 必 须 加 上 偏 移 量 2 一 1 一 7。 
B. 下 面 是 该 汇编 代码 加 上 注释 的 一 个 版 本 : 


long arith(long x) 


x in Vrdi 
arith: 
leaq 7(%rdi), %rax temp = x+7 
testq  %rdi, %rdi Test x 
cmovns rdi, %rax If x>= 0, temp = x 
Sardq $3，YTrax result = temp >> 3 (= x/8) 
ret 


这 个 程序 创建 一 个 临时 值 等 于 z 十 7， 预期 x 为 负 ， 需 要 加 偏 移 量 时 使 用 。cmovns 指令 在 当 
Z 之 0 条 件 成 立时 把 这 个 值 修改 为 x， 然 后 再 移动 3 位 ， 得 到 z/8。 
3.21 这 个 题目 类 似 于 练习 题 3. 18， 除 了 有 些 条 件 语句 是 用 条 件数 据 传 送 实现 的 。 虽 然 将 这 段 代码 装 进 
到 原始 的 C 代码 中 看 起 来 有 些 令 人 惧怕 ， 但 是 你 会 发 现 它 相当 严格 地 遵守 了 翻译 规则 。 


long test(long x, long y) { 
long val = 8*x; 





if (y > 0) { 
1 (x < 
val = y-x; 
else 
Val = x&y; 
} else if (y <= -2) 
Val = xXx+y; 
return val; 
} 
3.22 A. 如 果 构 建 一 张 使 用 数据 类 型 int 来 计算 的 阶乘 表 ， 得 到 下 面 这 样 的 表 : 
n nl OK? 
1 ll 4 
2 2 YY 
3 6 ¥ 
4 24 这 
5 120 Y 
6 720 立 
人 5 040 入 
8 40 320 
9 362 880 Y 
10 3 628 800 Y 
11 39 916 800 4 
12 479 001 600 ¥ 
13 1 932 053 504 N 








Lm 
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我 们 可 以 看 到 ,计算 13! 溢出 了 。 正 如 在 练习 题 2. 35 中 学 到 的 那样 ， 还 可 以 通过 计算 

ZX/n， 看 它 是 否 等 于 (n 一 1)! 来 测试 n! 的 计算 是 否 溢出 了 (假设 我 们 已 经 能 够 保证 (n 一 1)! 的 
计算 没有 溢出 )。 在 此 处 ， 我 们 得 到 1 932 053 504/13 二 161 004 458. 667。 另 外 有 个 测试 方法 ， 
可 以 看 到 10! 以 上 的 阶乘 数 都 必须 是 100 的 倍数 ， 因 此 最 后 两 位 数字 必然 是 0。131 的 正确 值 
应 该 是 6 227 020 800。 

B. 用 数据 类 型 long 来 计算 ,直到 201 才 溢出 ， 得 到 2 432 902 008 176 640 000。 

编译 循环 产生 的 代码 可 能 会 很 难 分 析 ， 因 为 编译 器 对 循环 代码 可 以 执行 许多 不 同 的 优化 ， 也 因为 

可 能 很 难 把 程序 变量 和 寄存 器 匹配 起 来 。 这 个 特殊 的 例子 展示 了 几 个 汇编 代码 不 仅仅 是 C 代码 直 

接 翻 译 的 地 方 。 

A. 虽然 参数 x 通过 寄存 器 $rdi 传递 给 函数 ， 可 以 看 到 一 旦 进入 循环 就 再 也 没有 引用 过 该 寄存 器 
了 。 相 反 ， 我 们 看 到 第 2 一 5 行 上 寄存 器 $rax、%rcx 和 %rdx 分 别 被 初始 化 为 x、x*x 和 x+x。 因 
此 可 以 推断 ， 这 些 寄存 器 包含 着 程序 变量 。 

B. 编译 器 认为 指针 p 总 是 指向 x， 因 此 表达 式 (*p)++ 就 能 够 实现 x 加 一 。 代 码 通过 第 7 行 的 leaq 
指令 ， 把 这 个 加 一 和 加 y 组 合 起 来 。 

C. 添加 了 注释 的 代码 如 下 : 


long dw_loop(long x) 
x initially in Yrdi 


和 dw_loop: 

bp movqg %rdi, %rax Copy x to Yrax 

3 movq %rdi, %rcx 

4 imulq  %rdi, %rcx Compute y = x#*x 

5 leaq (Xrdi,%rdi), %rdx Compute n = 2*x 

6 L2 loop: 

7 leaq 1(Xrcx,%rax), hrax Compute x += y+1 
8 subq $1, %rdx Decrement n 

9 testq %rdx, %rdx Test 1 

10 jg sb2 If > 0, goto loop 
11 rep; ret Return 


这 个 汇编 代码 是 用 跳 转 到 中 间 方 法 对 循环 的 相当 直接 的 翻译 。 完 整 的 C 代码 如 下 : 
long loop_while(long a, long b) 


long result = 1; 

while (a < b) { 
result = result * (a+b); 
a = atil; 

} 

return result; 


上 
这 个 汇编 代码 没有 完全 遵循 guarded-do 翻译 的 模式 ， 可 以 看 到 它 等 价 于 下 面 的 C 代码: 


long loop_while2(long a, long b) 


be 
long result = b; 
while (b > 0) { 
result = result * a; 
b = b-a; 
小 
return result; 
} 


我 们 会 经 常 看 到 这 样 的 情况 ,特别 是 用 较 高 优化 等 级 编译 时 ， 此 时 GCC 会 自作 主张 地 修改 生 
成 代码 的 格式 ， 同 时 又 保留 所 要 求 的 功能 。 
能 够 从 汇编 代码 工作 回 C 代码 ， 是 逆向 工程 的 一 个 主要 例子 。 
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A. 可 以 看 到 这 段 代码 使 用 的 是 跳 转 到 中 间 翻 译 方法 ， 在 第 3 行使 用 了 jmp 指令 。 
B. 下 面 是 原始 的 C 代码 : 
long fun_a(unsigned long x) { 


long val = 0; 
while (x) { 
bi 
X >>= 1; 
return val & Oxil; 
} 
C. 这 个 代码 计算 参数 x 的 奇偶 性 。 也 就 是 ， 如 果 x 中 有 奇数 个 1， 就 返回 1， 如 果 有 偶数 个 1， 就 
返回 0。 


3.27 这 道 练习 题 意 在 加 强 你 对 如 何 实 现 循环 的 理解 。 
long fact_for_gd_goto(long n) 
{ 

long i = 2; 
long result = 1,; 
if (n <= 1) 
goto done; 
loop: 
result *= i; 
3 
if (i <= n) 
goto loop; 
done: 
return result,; 


} 
3.28 这 个 问题 比 练习 题 3. 26 要 难 一 些 ， 因 为 循环 中 的 代码 更 复杂 ， 而 整个 操作 也 不 那么 熟悉 。 
A. 以 下 是 原始 的 C 代码: 


long fun_b(unsigned long x) { 

long val = 0; 

long i; 

for (i = 64; i != 0; i--) { 
val = (val << 1) | (x & Ox1); 
XK D> 1 

} 

return val; 


} 
B. 这 段 代码 是 用 guarded-do 变换 生成 的 ,但 是 编译 器 发 现 因 为 i 初始 化 成 了 64， 所 以 一 定 会 满足 
测试 i 关 0， 因 此 初始 的 测试 是 没 必要 的 。 
C. 这 段 代码 把 x 中 的 位 反 过 来 ,创造 一 个 镜像 。 实 现 的 方法 是 : 将 x 的 位 从 左 往 右 移 ， 然 后 再 填 
人 这 些 位 ， 就 像 是 把 val 从 右 往 左 移 。 
3.29 我 们 把 for 循环 翻译 成 while 循环 的 规则 有 些 过 于 简单 一 一 这 是 唯一 需要 特殊 考虑 的 方面 。 
A. 使 用 我 们 的 翻译 规则 会 得 到 下 面 的 代码 : 
/* Naive translation of for loop into while loop */ 
/* WARNING: This is buggy code */ 
long sum = 0; 
long i = 0; 
while (i < 10) { 
if (i & 1) 
/* This will cause an infinite loop */ 
continue; 
sum += i; 


+ 








3.:30 


3. 


因为 continue 语句 会 阻止 索引 变量 i 被 修改 ， 所 以 这 段 代码 是 无 限 循 环 。 
B. 通用 的 解决 方法 是 用 goto 语句 替代 continue 语句 ， 它 会 跳 过 循环 体 中 余下 的 部 分 ， 直 接 跳 到 
update 部 分 : 


/* Correct translation of for loop into while loop */ 
long sum = 0; 
long i = 0; 
while (i < 10) { 
if (i & 1) 
goto update; 





sum += i; 
update: 
FE 
} 1 

这 个 练习 给 你 一 个 机 会 ， 推 算出 switch 语句 的 控制 流 。 要 求 你 将 汇编 代码 中 的 多 处 信息 综合 起 

来 回答 这 些 问 题 : 

@ 汇编 代码 的 第 2 行将 x 加 上 1， 将 情况 (cases) 的 下 界 设 置 成 0。 这 就 意味 着 最 小 的 情况 标号 为 一 1。 

@ 当 调 整 过 的 情况 值 大 于 8 时， 第 3 行 和 第 4 行 会 导致 程序 跳 转 到 默认 情况 。 这 就 意味 着 最 大 情 
况 标 号 为 一 1 十 8 二 7。 

@ 在 跳 转 表 中 ， 我 们 看 到 第 6 行 的 表 项 (情况 值 3) 与 第 9 行 的 表 项 (情况 值 6) 都 以 第 4 行 的 跳 转 指 
令 作为 同样 的 目标 (.L2)， 表 明 这 是 默认 的 情况 行为 。 因 此 ， 在 switch 语句 体 中 缺失 了 情况 标 
号 3 和 一 6。 

@ 在 跳 转 表 中 ， 我 们 看 到 第 3 行 和 第 10 行 上 的 表 项 有 相同 的 目的 。 这 对 应 于 情况 标号 0 和 7。 

@ 在 跳 转 表 中 ， 我 们 看 到 第 5 行 和 第 7 行 上 的 表 项 有 相同 的 目的 。 这 对 应 于 情况 标号 2 和 4。 

从 上 述 推理 ， 我 们 得 出 如 下 结论 : 

A，switch 语句 体 中 的 情况 标号 值 为 一 1、0、1、2、4、5 和 7。 

B. 目标 为 . L5 的 情况 标号 为 0 和 ?7。 

C. 目标 为 . L7 的 情况 标号 为 2 和 4。 

逆向 工程 编译 出 switch 语句 ， 关 键 是 将 来 自 汇 编 代 码 和 跳 转 表 的 信息 结合 起 来 ， 理 清 不 同 的 情 

况 。 从 ja 指令 (第 3 行 ) 可 知 ， 默 认 情 况 的 代码 的 标号 是 .L2。 我 们 可 以 看 到 ， 跳 转 表 中 只 有 另 一 

个 标号 重复 出 现 ， 就 是 .L5， 因 此 它 一 定 是 情况 C 和 DD 的 代码 。 代 码 在 第 8 行 落 入 下 面 的 情况 ， 

因而 标号 .L7 符合 情况 A， 标 号 .L3 符合 情况 B。 只 剩 下 标号 .L6， 符 合 情 况 下 。 

原始 的 C 代码 如 下 : 
void switcher(long a, long b, long c¢, long *dest) 

让 

long val; 
switch(a) { 
case 5: 
co = Db” 15; 
/* Fall through */ 
case 0: 
val = c + 112; 
break; 
case 2: 
case 7: 
val = (6c Pb) < 
break; 
case 4: 
val = a; 
break; 
default: 
val = b; 
} 


*dest = val; 
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3.32 


3.34 


追踪 此 等 级 上 的 程序 的 执行 有 助 于 理解 过 程 调用 和 返回 的 很 多 方面 。 可 以 明确 看 到 调用 时 控制 是 
怎么 传 给 过 程 的 以 及 返回 时 调用 函数 如 何 继续 执行 的 。 还 可 以 看 到 参数 通过 寄存 器 srdi 和 %rsi 
传递 ， 结 果 通 过 寄存 器 srax 返回 。 




































































指令 状态 值 ( 指 令 开 始 执行 前 ) 
标号 EPG 指令 Srdi | Srsi | Srax Srsp *%rsp 
MI1 | 0x400560 | callqg 10 2 Ox7fffffffe820 Ee 调用 first (10) 
Fl | 0x400548 | lea 10 一 一 0x7fffffffe818 | 0x400565 | first 的 人 人口 
F2 | 0x40054c | sub 10 | 一 人 0x400565 
F3 | 0x400550 | calla i a I = Ox7fffffffe818 0x400565 调用 | 
一 一 一 一 i 
L1 | 0x400540 | mov 9 = Ox7fffffffe810 | 0x400555 | last 的 人 口 
+ = 
L2 | 0x400543 | imul 9 11 9 0x7fffffffe810 | 0x400555 
L3 | 0x400547 | retq 9 11 99 0x7fffffffe810 | 0x400555 | 从 last 返回 99 
F4 | 0x400555 | repz repg 9 11 99 0x7fffffffe818 | 0x400565 | 从 first 返回 99 
M2 | 0x400565 | mov 9 I 99 Ox7fffffffe820 3 继续 执行 main 








由 于 是 多 种 数据 大 小 混合 在 一 起 ， 这 道 题 有 点 儿 难 。 

让 我 们 先 描述 第 一 种 答案 ， 再 解释 第 二 种 可 能 性 。 如 果 假 设 第 一 个 加 (第 3 行 ) 实 现 *u+=a， 
第 二 个 加 (第 4 行 ) 实 现 v+t=b， 然 后 我 们 可 以 看 到 a 通过 % edi 作为 第 一 个 参数 传递 ， 把 它 从 4 个 
字 节 转换 成 8 个 字 节 ， 再 加 到 srdx 指向 的 8 个 字 节 上 。 这 就 意味 着 a 必定 是 int 类 型 ，u 一 定 是 
long * 类 型 。 还 可 以 看 到 参数 b 的 低位 字 节 被 加 到 了 srcx 指向 的 字 节 。 这 就 意味 着 v 一 定 是 
char * ， 但 是 b 的 类 型 是 不 确定 的 一 一 它 的 大 小 可 以 是 1、2、4 或 8 字 节 。 注 意 到 返回 值 为 6 就 
能 解决 这 种 不 确定 性 ， 这 个 返回 值 是 a 和 bp 大 小 的 和 。 因 为 我 们 知道 a 的 大 小 是 4 字 节 ， 所 以 可 
以 推断 出 b 一 定 是 2 字 节 的 。 

该 函数 的 一 个 加 了 注释 的 版 本 解释 了 这 些 细节 : 


int procprobl(int a, short b, long *u, char *v) 


a dn Yeodi, bh lin Xei, u ln Wnilx, rv in Wrex 


\ procprob: 

2 movslq %edi, %rdi Convert a to long 

| addq Xdai， (%rdx) Add to *u (long) 

4 addb Wsil, (Xrcx) Add low-order byte of b to *v 
5 movl $6, %eax Return 4+2 

6 ret 


此 外 ， 我 们 可 以 看 到 如 果 以 它们 在 C 代码 中 出 现 相反 的 顺序 在 汇编 代码 中 计算 这 两 个 和 ， 这 
段 汇编 代码 同样 合法 。 这 会 导致 交换 参数 a 和 pb， 参数 u 和 v， 得 到 如 下 原型 : 


int Procprob(int b, short a, long *v, char *u); 


这 个 例子 展示 了 被 调用 者 保存 寄存 器 的 使 用 ， 以 及 保存 局 部 数据 的 栈 的 使 用 。 

A. 可 以 看 到 第 9 一 14 行将 局 部 值 a0~a5 分 别 保存 进 被 调用 者 保存 寄存 器 $rbx、%r15、%r14、 
%r13、%r12 和 %rbp。 

B. 局 部 值 a6 和 a7 存放 在 栈 中 相对 于 栈 指针 偏 移 量 为 0 和 8 的 地 方 (第 16 和 18 行 )。 

C. 在 存储 完 6 个 局 部 变量 之 后 ， 这 个 程序 用 完了 所 有 的 被 调用 者 保存 寄存 器 ， 所 以 剩 下 的 两 个 值 
保存 在 栈 上 。 

这 道 题 给 了 一 个 检查 递归 函数 代码 的 机 会 。 要 学 的 一 个 很 重要 的 内 容 就 是 ， 递 归 代 码 与 我 们 看 到 

的 其 他 函数 的 结构 一 模 一 样 。 栈 和 寄存 器 保存 规则 足以 让 递归 函数 正确 执行 。 

A. 寄存 器 srbx 保存 参数 x 的 值 ， 所 以 它 可 以 被 用 来 计算 结果 表达 式 。 

B. 汇编 代码 是 由 下 面 的 C 代码 产生 而 来 的 : 











long rfun(unsigned long x) { 
if (x == 0) 
return 0; 
unsigned long nx = x>>2; 
long rv = rfun(nx); 
return x + rv; 


这 个 练习 测试 你 对 数据 大 小 和 数组 索引 的 理解 。 注 意 ,任何 类 型 的 指针 都 是 8 个 字 节 长 。short 


数据 类 型 需要 2 个 字 节 ， 而 int 需要 4 个 。 


2 Xs+2i 
Xxr+ 8i 





Xxut+ 8i 
Xv 十 4 
Xxw+ 8i 














这 个 练习 是 关于 整数 数组 E 的 练习 的 一 个 变形 。 理 解 指 针 与 指针 指向 的 对 象 之 间 的 区 别 是 很 重要 
的 。 因 为 数据 类 型 short 需要 2 个 字 节 ， 所 以 所 有 的 数组 索引 都 将 乘 以 因子 2。 前 面 我 们 用 的 是 
movl1， 现 在 用 的 则 是 movw。 5 





汇编 语句 
leal2 (%rdx), Srax 
















Xxs+2 














S[3] M[xs + 6] movw6 (Srdx), Sax 
&S[i] Xxs+2i leal (Srdx, Srcx, 2) ,Srax 
S[4*i+1] M[xs + 8i+ 2] movw2 (Srdx, Srcx, 8) ,Sax 





S+i-5 Xxs+2i—10 leal-10 (Srdx, Srcx, 2) ,Srax 








这 个 练习 要 求 你 完成 缩放 操作 ， 来 确定 地 址 的 计算 ,并 且 应 用 行 优先 索引 的 公式 (3. 1) 。 第 一 步 是 
注释 汇编 代码 ， 来 确定 如 何 计算 地 址 引用 : 


long sum_element (long i, long j) 
Lin Xradis 3 in Krsi 


sum_element: 


| 
2 leadq 0(,%rdi,8), %rdx Compute 8i 

3 subq WEdi, Wiadx Compute 7i 

4 addq 和 sl Wrdr Compute 7Ti+j 

5 leaq (Xrsi,%rsi,4), %rax Compute 5j 

6 addq %raxs 他 di Compute i 十 5j 

8 movq Q(,%rdi,8), %rax Retrieve Mlxg + 8 (5j + i)] 
8 addq P(,%rdx,8), %rax hdd Mlxp + 8 (i + )N)] 

9 ret 


我 们 可 以 看 出 ， 对 和 矩阵 P 的 引用 是 在 字 节 偏 移 8X(7i 十 j) 的 地 方 ， 而 对 和 矩阵 Q 的 引用 是 在 字 
节 偏 移 8X (5j 十 乡 的 地 方 。 由 此 我 们 可 以 确定 P 有 7 列 , 而 有 5 列 ,得 到 M=5 和 N=7。 
这 些 计算 是 公式 (3. 1) 的 直接 应 用 : 
@ 对 于 工 王 4，C=16 和 j 二 0， 指 针 Aptr 等 于 x 十 4X(16i 十 0) 二 x 十 64i。 
@ 对 于 LL 二 4，C 二 16, i 一 0 和 7 一 上 ， 指 针 Bptr 等 于 zs 十 4X(16X0 十 k) 二 xs 十 4k。 
@ 对 于 LL 二 4，C 一 16, i 一 16 和 j= 二 上 &，Bend 等 于 zs 十 4X(16X16 十 k) 二 xs 十 1024 十 4k。 
这 个 练习 要 求 你 能 够 研究 编译 产生 的 汇编 代码 ， 了 解 执行 了 哪些 优化 。 在 这 个 情况 中 ， 编 译 器 做 
一 些 聪 明 的 优化 。 

让 我 们 先 来 研究 一 下 C 代码 ， 然 后 看 看 如 何 从 为 原始 函数 产生 的 汇编 代码 推导 出 这 个 C 
代码 。 
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/* Set all diagonal elements to val */ 
Void fix_set_diag_opt (fix_matrix A, int val) { 
int *Abase = &A[0] [0]; 
long i = 0; 
long iend = N*(N+1); 
dot 
Abase[i] = val; 
i += (N+1); 
} while (i != iend); 


这 个 函数 引入 了 一 个 变量 abase，int * 类 型 的 ， 指 向 数组 A 的 起 始 位 置 。 这 个 指针 指向 一 
个 4 字 节 整数 序列 ， 这 个 序列 由 按照 行 优先 顺序 存放 的 A 的 元 素 组 成 。 我 们 引入 一 个 整数 变量 in- 
dex， 它 一 步 一 步 经 过 和 A 的 对 角 线 ， 它 有 一 个 属性 ， 那 就 是 对 角 线 元 素 i 和 i 十 1 在 序列 中 相隔 N 十 
1 个 元 素 ， 而 且 一 旦 我 们 到 达 对 角 线 元 素 N( 索 引 为 N(N 十 1))， 我 们 就 超出 了 边界 。 

实际 的 汇编 代码 遵循 这 样 的 通用 格式 , 但 是 现在 指针 的 增加 必须 乘 以 因子 4。 我 们 将 寄存 
器 srax 标记 为 存放 值 index4， 等 于 C 版 本 中 的 index， 但 是 使 用 因子 4 进行 伸缩 。 对 于 N=16， 
我 们 可 以 看 到 对 于 index4 的 停止 点 会 是 4. 16(16 十 1) 王 1088。 


1 fix_set_diag: 
void fix_set_diag(fix_matrix A, int val) 


A jin Wrdi, val in Wrsi 


2 movl $0, %eax Set index4 = 0 
3 ic loop: 

Ss movl Wesi, (%rdi,%rax) Set Abase[index4/4] to val 
5 addq $68, %rax Increment index4 += 4(N+1) 
6 cmpq $1088, %rax Compare index4: 4N(N+1) 

7 jne Eh ks, If !=, goto loop 

8 rep; ret Return 


3.41 这 个 练习 让 你 思考 结构 的 布局 ， 以 及 用 来 访问 结构 字段 的 代码 。 该 结构 声明 是 书 中 所 示例 子 的 一 
个 变形 。 它 表明 和 赃 套 的 结构 的 分 配 是 将 内 层 结构 嵌入 到 外 层 结构 之 中 。 
A. 该 结构 的 布局 图 如 下 : 
偏 移 0 8 16 24 


总 
nm 容 [ PP | sx [| sy | nx | 
B. 它 使 用 了 24 个 字 节 。 
C. 同 平时 一 样 ， 我 们 从 给 汇编 代码 加 注释 开始 : 


void sp_init(struct prob *sp) 
sp in Yrdi 


1 sp_init: 

2 movl 12(%rdi), %eax Get sp->s.y 

3 movl Weax, 8(%rdi) Save in sp->s.x 

4 leaq 8(%rdi), %rax Compute &(sp->s.x) 

5 movqg %rax, (%rdi) Store in sp->p 

6 movqg %rdi, 16(%rdi) Store sp in sp->next 
ret 


由 此 可 以 产生 如 下 C 代码 : 


void sp_init(struct prob *sp) 


{ 
sp->s.x = sp->s.y; 
sp->p = &(sp->s.x); 
sp->next = sp; 


3.42 这 道 题 说 明了 一 个 非常 普通 的 数据 结构 和 对 它 的 操作 时 如 何在 机 器 代码 中 实现 。 要 解答 这 些 问题 ， 
还 是 先 对 汇编 代码 加 注释 ， 确 认 出 该 结构 的 两 个 字段 分 别 在 偏 移 量 0( 字 段 v) 和 8( 字 段 p) 处 。 
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long fun(struct ELE *ptr) 
ptr im Yrdi 


] fun: 

2 movl $0, Weax result = 0 

3 jmp .L2 Goto middle 

4 3: loop: 

5 addq (%rdi), %rax result += ptr->v 

6 movq 8(%rdi), %rdi ptr = ptr->p 

#2 middle: 

8 testq HEdi: Wid Test ptr 

9 jne -L3 If != NULL, goto loop 
10 rep; ret 


A. 根据 加 了 注释 的 代码 ， 可 以 得 到 C 语言 : 


long fun(struct ELE *ptr) { 
long val = 0; 
while (ptr) { 
Val += ptr->v; 
ptr = ptr->p; 
} 


return val; 


B. 可 以 看 到 每 个 结构 都 是 一 个 单 链表 中 的 元 素 ， 字 段 v 是 元 素 的 值 ， 字 段 p 是 指向 下 一 个 元 素 的 
指针 。 函 数 fun 计算 列表 中 元 素 值 的 和 。 
3.43 ”结构 和 联合 涉及 的 概念 很 简单 ， 但 是 需要 练习 来 习惯 不 同 的 引用 模式 和 它们 的 实现 。 







movdq (%rdi),$Srax 






movg Srax, (%rsi) 






movw 8 (%rdi),%ax 








movw Sax, (Srsi) 


addq $,%rdi 






movq Srdi, (Srsi) 















UB-St258 movg Srdi,%®rsi 
up->t2.a[up- > tl.ul] int movg (%rdi),%Srax 
movl (Srdi,%rax,4),%eax 
mov] Seax, (Srsi) 
Up-St2:B char movq 8(%rdi),%rax 


movb (%rax),%al 








movb %al, (Srsi) 








3. 44 想 理解 各 种 数据 结构 需要 多 少 存储 ， 以 及 编译 器 为 访问 这 些 结构 产生 的 代码 ， 理 解 结构 的 布局 和 
对 齐 是 非常 重要 的 。 这 个 练习 让 你 看 清楚 一 些 示例 结构 的 细节 。 


A. struct Bi 1 int 1» char cy int js char dy 下 5 
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C. struct P3 { short w[3]; char c[3] }; 


w c 
0 6 


D. struct P4 { short w[5]; char *c[3] }; 


w e 总 共 对 齐 
0 16 40 8 


E. struct P5 { struct P3 a[2]; struct P2+t }; 



































3.45 这 是 一 个 理解 结构 的 布局 和 对 齐 的 练习 。 
A. 这 里 是 对 象 大 小 和 字 节 偏 移 量 : 








B. 这 个 结构 一 共 是 56 个 字 节 长 。 结 构 的 结尾 必须 填充 4 个 字 节 来 满足 8 字 节 对 齐 的 要 求 。 
C. 当 所 有 的 数据 元 素 的 长 度 都 是 2 的 寡 时 ， 一 种 行 之 有 效 的 策略 是 按照 大 小 的 降序 排列 结构 的 元 
素 。 导 致 声明 如 下 : 


struct { 
char *; 
double [oi 
long E; 
float e; 
int h; 
short b; 
char ad; 
char £ 

} rec; 

得 到 的 偏 移 量 如 下 ，: 








这 个 结构 要 填充 4 个 字 节 以 满足 8 字 节 对 齐 的 要 求 ， 所 以 总 共 是 40 个 字 节 。 
3.46 这 个 问题 覆盖 的 话题 比较 广泛 ， 例 如 栈 帧 、 字 符 串 表示 、ASCII 码 和 字 节 顺序 。 它 说 明了 越界 的 
内 存 引用 的 危险 性 ， 以 及 缓冲 区 溢出 背后 的 基本 思想 。 
A. 执行 了 第 3 行 后 的 栈 : 







00 00 00 00 00 40 00 76 
01 23 45 67 89 AB CD EF 


返回 值 
保存 的 srbx 







<—— buf =%rsp 








3. 47 


3. 49 


3:5i 





| oo oo oo 00 00 40 00 34] 返回 什 

33 32 31 30 39 38 37 36| 保存 的 srbx 

35 34 33 32 31 30 39 38 

37 36 35 34 33 32 31 30| <— buf = srsp 
















C. 这 个 程序 试图 返回 到 地 址 0x040034。 低 位 2 字 节 被 字符 ‘4? 和 结尾 的 空 (null) 字 符 覆 盖 了 。 

D. 寄存 器 srbx 的 保存 值 被 设置 为 0x3332313039383736。 在 get_line 返回 前 ， 这 个 值 会 被 加 载 
回 这 个 寄存 器 中 。 

E. 对 malloc 的 调用 应 该 以 strlen (buf)+ 1 作为 它 的 参数 ， 而 且 代 码 还 应 该 检查 返回 值 是 否 为 
NULL。 a 

A. 这 对 应 于 大 约 2* 个 地 址 的 范围 。 

B. 每 次 尝试 ,一 个 128 字 节 的 空 操作 sled 会 覆盖 27 个 地 址 ， 因 此 我 们 只 需要 2 一 64 次 尝试 。 

这 个 例子 明确 地 表明 了 这 个 版 本 的 Linux 中 的 随机 化 程度 只 能 很 小 地 阻挡 溢出 攻击 。 

这 道 题 让 你 看 看 x86-64 代码 如 何 管理 栈 ， 也 让 你 更 好 地 理解 如 何 防卫 缓冲 区 溢出 攻击 。 

A. 对 于 没有 保护 的 代码 ， 第 4 行 和 第 5 行 计算 v 和 buf 的 地 址 为 相对 于 srsp 偏 移 量 为 24 和 0。 
在 有 保护 的 代码 中 ， 金 丝 瞧 被 存放 在 偏 移 量 为 40 的 地 方 (第 4 行 )， 而 v 和 buf 在 偏 移 量 为 8 
和 16 的 地 方 (第 7 行 和 第 8 行 )。 

B. 在 有 保护 的 代码 中 ， 局 部 变量 v 比 buf 更 靠近 栈 顶 ， 因 此 buf 溢出 就 不 会 破坏 v 的 值 。 

这 段 代码 中 包含 许多 我 们 已 经 见 到 过 的 执行 位 级 运算 的 技巧 。 要 仔细 研究 才能 看 得 懂 。 

A. 第 5 行 的 leaqg 指令 计算 值 8n 十 22， 然 后 第 6 行 的 andg 指令 把 它 向 下 伟人 到 最 接近 的 16 的 倍 
数 。 当 n 是 奇数 时 ， 结 果 值 会 是 8 十 8， 当 nn 是 偶数 时 ,结果 值 会 是 8 十 16， 这 个 值 减 去 5 就 
得 到 s;。 

B. 该 序列 中 的 三 条 指令 将 ?伟人 到 最 近 的 8 的 倍数 。 它 们 利用 了 2. 3.7 节 中 实现 除 以 2 的 寡 用 到 
的 偏 移 和 移 位 的 组 合 。 

C. 这 两 个 例子 可 以 看 做 最 小 化 和 最 大 化 ea 和 e: 的 情况 。 


2065 2017 2024 
2064 2000 2000 





D. 可 以 看 到 s; 的 计算 方式 会 保留 si 的 偏 移 量 为 最 接近 的 16 的 倍数 。 还 司 以 看 副 p 会 以 8 的 倍数 
对 齐 ， 正 是 对 8 字 节 元 素数 组 建议 使 用 的 。 

这 道 题 要 求 你 仔细 检查 代码 ， 小 心 留意 使 用 的 转换 和 数据 传送 指令 。 可 以 看 到 取出 的 值 和 转换 的 

情况 如 下 : 

@ 取出 位 于 dp 的 值 ， 转 换 成 int( 第 4 行 )， 再 存储 到 ip。 因 此 可 以 推断 出 vall 是 d。 

@ 取出 位 于 ip 的 值 ， 转 换 成 float( 第 6 行 )， 再 存储 到 fp。 因 此 可 以 推断 出 val2 是 i。 

@ 1 的 值 被 转换 成 double( 第 8 行 )， 并 存储 在 dp。 因 此 可 以 推断 出 val3 是 1。 

@ 第 3 行 上 取出 位 于 fp 的 值 。 第 10 和 11 行 的 两 条 指令 把 它 转换 为 双 精 度 ， 值 通过 寄存 器 sxmm0 
返回 。 因 此 可 以 推断 出 val4 是 f。 

可 以 通过 从 图 3-47 和 图 3-48 中 选择 适当 的 条 目 或 者 使 用 在 浮 点 格式 间 转 换 的 代码 序列 来 处 理 这 

些 情况 。 








如 D 指令 

long double vcvtsi2sdq %rdi,%xmm0,%xmmO0 
double dnE vecvttsd2si %xmm0,%eax 
double float vunpcklpd %xmmO0,%xmm0, sxmm0 


vecvtpd2ps %xmm0, sxmmO0 





long float vctsi2ssqg %rdi,%xmm0,%xmm0 





float long vecvttss2siq Sxmm0,$srax | 





2 


3.54 


3:56 
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映射 参数 到 寄存 器 的 基本 规则 非常 简单 (虽然 随 着 有 更 多 类 型 的 参数 出 现 ， 这 些 规则 也 变 得 越 来 越 
复杂 [77]) 。 
A. double gl(double a, long b, float c，int d) ; 

寄存 器 : a 在 $xmm0 中 ，b 在 srdi 中 ，c 在 sxmml 中 ，d 在 % esi 中 
B. double g2(int a, double *b, float *c, long d); 

寄存 器 : a 在 %edi 中 ,， b 在 %rsi 中 , c 在 %rdx 中 , d 在 %rcx 中 
C. double g3(double *a, double b, int c, float d); 

寄存 器 : a 在 srdi 中 ，b 在 $xmm0 中 ，c 在 %$ esi 中 ，d 在 $xmml 中 
D. double g4(float a, int *b, float c¢, double d); 

寄存 器 :a 在 $xmm0 中 ，b 在 srdi 中 ，c 在 sxmml 中 ，d 在 %xmm2 中 
从 这 段 汇编 代码 可 以 看 出 有 两 个 整数 参数 ， 通 过 寄存 器 $rdi 和 %rsi 传递 ， 将 其 命名 为 i1 和 i2。 
类 似 地 ， 有 两 个 浮 点 参数 ， 通 过 寄存 器 $xmm0 和 s%xmml 传递 ， 将 其 命名 为 f1 和 f2。 

然后 给 汇编 代码 加 注释 : 
Refer to arguments as il (Xrdi), i2 (Xesi) 


f1 (Yxmm0), and f2 (Yxmm1l) 


double functi(argl_t p, arg2_t q, arg3_t r, arg4_t s) 


1 functl: 

2 vecvtsi2ssq Wrsi, %xmm2, %xmm2 Get i2 and convert from long to float 
和 vaddss %xmm0, %xmm2, %xmmO Add If1 (type float) 

4 vevtsi2ss Wedi, %xmm2, %xmm2 Get il and convert from int to float 
5 vdivss %xmmO0, %xmm2, %xmmO Compute il / (i2 + £1) 

6 vunpcklps XxmmO0, %xmmO, %xmmO 

x vevtps2pd %xmmO ，%XxmmoO Convert to double 

8 vsubsd %xmml, %xmmO0, %xmmO Compute il / (i2 + f1) - f2 (double) 
9 ret 


由 此 可 以 看 出 这 段 代 码 计 算 值 i1/ (i2+f1)-f2。 还 可 以 看 到 ，i1 的 类 型 为 int，i2 的 类 型 为 
long，f1 的 类 型 为 float， 而 f2 的 类 型 为 double。 将 参数 匹配 到 命名 的 值 只 有 一 个 不 确定 的 地 
方 ， 来 自 于 加 法 的 交换 性 一 一 得 到 两 种 可 能 的 结果 : 


”double functla(int p, float q, long r, double s); 


double functib(int p, long q, float r, double s); 


一 步 步 梳理 汇编 代码 ， 确 定 每 一 步 计算 什么 ， 就 很 容易 找到 这 道 题 的 答案 ， 如 下 面 的 注释 所 示 : 


double funct2(double w, int x, float y, long 2z) 


Ww iD %YxmmO0, x iD Yedi, y in Yxmml, Zz in Yrsi 


1 funct2: 

2 Vcvtsi2ss %edi, %xmm2, %xmm2 Convert x to float 

3 vmulss %xmmi, %xmm2, %xmml Multiply by y 

4 vunpcklps %xmml, %xmmi, %xmmli 

当 vevtps2pd %xmm1 , %xmm2 Convert x*y to double 
6 vevtsi2sdq %rsi, %xmml, %xmml Convert z to double 

7 vdivsd “xmmi, %xmm0, %xmmO Compute w/z 

8 vsubsd “xmm0, %xmm2, %xmmO Subtract from x*y 

9 ret Return 


可 以 从 分 析 得 出 结论 ， 该 函数 计算 y*x-w/z。 
这 道 题 使 用 的 推理 与 推断 标号 .LC2 处 声明 的 数字 是 1. 8 的 编码 一 样 ， 不 过 例子 更 简单 。 

我 们 看 到 两 个 值 分 别 是 0 和 1077936128(0x40400000)。 从 高 位 字 节 可 以 抽取 出 指数 字段 
0x404(1028) ， 减 去 偏 移 量 1023 得 到 指数 为 5。 连接 两 个 值 的 小 数位 ， 得 到 小 数字 段 为 0， 加 上 隐 
含 的 开头 的 1， 得 到 1.0。 因 此 这 个 常数 是 1.0X2: 二 32.0。 

A. 在 此 可 以 看 到 从 地 址 .Lc1 开始 的 16 个 字 节 是 一 个 掩 码 ， 它 的 低 8 个 字 节 是 全 1， 除了 最 高 位 ， 

这 是 双 精 度 值 的 符号 位 。 计 算 这 个 掩 码 和 %xmm0 的 AND 值 时 ， 会 清除 x 的 符号 位 ， 得 到 绝对 
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值 。 实 际 上 ， 定 义 EXPR (x) 为 fabs (x) 就 能 得 到 这 段 代 码 ，fabs 是 在 < math.h> 中 定义 的 。 
B. 可 以 看 到 vxorpd 指令 将 整个 寄存 器 设置 为 0， 所 以 这 是 一 种 产生 浮 点 常数 0. 0 的 方法 。 
C. 可 以 看 到 从 地 址 .LC2 开始 的 16 个 字 节 是 一 个 掩 码 ， 它 只 有 一 个 1 位 ,位 于 XMM 寄存 器 中 低 
位 数值 的 符号 位 。 计 算 这 个 掩 码 与 $xmm0 的 EXCLUSIVE 一 OR 值 时 ， 会 改变 x 符号 的 值 ， 计 
算出 表达 式 -x。 
3.57 ”同样 地 ， 为 代码 加 注释 ， 包 括 处 理 条 件 分 支 : 


double funct3(int *ap, double b, long c¢, float *dp) 


ap in Yrdi, b in %xmm0, c in Yrsi, dp in ¥rdx 


1 funct3: 

2 vmovss (Xrdx), %xmml Get d = *dp 

3 vcvtsi2sd (Xrdi), %xmm2, %xmm2 Get a = *ap and convert to double 
4 vuconmisd %xmm2, %xmmO Compare b:a 

5 jbe .L8 If <=, goto lesseq 

6 Vcvtsi2ssq Xrsi, %xmmO, %xmmO Convert c to float 

区 vmulss %xmml, %xmmO, %xmmi Multiply by d 

8 vunpcklps %xmm1, %xmml, %xmml 

vcevtps2pd %xmm1, %xmmO Convert to double 

10 ret Return 

11 .L8: lessedq: 

12 vaddss %xmmli, %xmmil, %xmmi Compute d+d = 2.0 * d 
13 vevtsi2ssg Wrsi, %xmmO0, %xmmO Convert c to float 

14 vaddss ‘%xmml, %xmmO0, %xmmO Compute c + 2*d 

15 vunpcklps %xmmO , %xmmO, %xmmO 

16 vecvtps2pd %xmmO ,%xmmO Convert to double 

a ret Return 


由 此 ， 可 以 写 出 funct3 的 代码 如 下 : 


double funct3(int *ap, double b, long c, float *dp) { 
int a = *ap; 
float d = *dp; 
if (a < b) 
return c*d; 
else 
return c+2*d; 
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处 理 器 体系 结构 


现代 微 处 理 器 可 以 称 得 上 是 人 类 创造 出 的 最 复杂 的 系统 之 一 。 一 块 手指 甲 大 小 的 硅 片 
上 ， 可 以 容纳 一 个 完整 的 高 性 能 处 理 器 、 大 的 高 速 缓存 ， 以 及 用 来 连接 到 外 部 设备 的 逻辑 
电路 。 从 性 能 上 来 说 ， 今 天 在 一 块 芯片 上 实现 的 处 理 器 已 经 使 20 年 前 价值 1000 万 美元 、 
房间 那么 大 的 超级 计算 机 相形 见 绕 了 。 即 使 是 在 像 手 机 、 导 航 系统 和 可 编程 恒温 器 这 样 的 
日 常设 备 中 的 组 入 式 处 理 器 ， 也 比 早期 计算 机 开发 者 所 能 想到 的 强大 得 多 。 
到 目前 为 止 ， 我 们 看 到 的 计算 机 系统 只 限于 机 器 语言 程序 级 。 我 们 知道 处 理 器 必须 执 
行 一 系列 指令 ， 每 条 指令 执行 某 个 简单 操作 ， 例 如 两 个 数 相 加 。 指 令 被 编码 为 由 一 个 或 多 
个 字 节 序列 组 成 的 二 进 制 格式 。 一 个 处 理 器 支持 的 指令 和 指令 的 字 节 级 编码 称 为 它 的 指令 
集体 系 结构 (Instruction-Set Architecture，ISA) 。 不 同 的 处 理 器 “家 族 ”， 例 如 Intel IA32 
和 x86-64、IBM/Freescale Power 和 ARM 处 理 器 家 族 ， 都 有 不 同 的 ISA。 一 个 程序 编译 
成 在 一 种 机 器 上 运行 ， 就 不 能 在 另 一 种 机 器 上 运行 。 另 外 ， 同 一 个 家 族 里 也 有 很 多 不 同型 
号 的 处 理 器 。 虽 然 每 个 厂商 制造 的 处 理 器 性 能 和 复杂 性 不 断 提高 ， 但 是 不 同 的 型 号 在 ISA 
级 别 上 都 保持 着 兼容 。 一 些 常见 的 处 理 器 家 族 ( 例 如 x86-64) 中 的 处 理 器 分 别 由 多 个 厂商 提 
供 。 因此，ISA 在 编译 器 编写 者 和 处 理 器 设计 人 员 之 间 提 供 了 一 个 概念 抽象 层 ， 编 译 器 编 
写 者 只 需要 知道 允许 哪些 指令 ， 以 及 它们 是 如 何 编码 的 ; 而 处 理 器 设计 者 必须 建造 出 执行 
这 些 指令 的 处 理 器 。 
本 章 将 简要 介绍 处 理 器 硬件 的 设计 。 我 们 将 研究 一 个 硬件 系统 执行 某 种 ISA 指令 的 方 
式 。 这 会 使 你 能 更 好 地 理解 计算 机 是 如 何 工 作 的 ， 以 及 计算 机 制造 商 们 面临 的 技术 挑战 。 
一 个 很 重要 的 概念 是 ， 现 代 处 理 器 的 实际 工作 方式 可 能 跟 ISA 隐 含 的 计算 模型 大 相 径 庭 。 
ISA 模型 看 上 去 应 该 是 顺序 指令 执行 ， 也 就 是 先 取 出 一 条 指令 ， 等 到 它 执 行 完 毕 ， 再 开始 
下 一 条 。 然 而 ， 与 一 个 时 刻 只 执行 一 条 指令 相 比 ， 通 过 同时 处 理 多 条 指令 的 不 同 部 分 ， 处 
理 器 可 以 获得 更 高 的 性 能 。 为 了 保证 处 理 器 能 得 到 同 顺序 执行 相同 的 结果 ， 人 们 采用 了 一 
些 特 殊 的 机 制 。 在 计算 机 科学 中 ， 用 巧妙 的 方法 在 提高 性 能 的 同时 又 保持 一 个 更 简单 、 更 
抽象 模型 的 功能 ， 这 种 思想 是 众所周知 的 。 在 Web 浏览 器 或 平衡 二 叉 树 和 哈 希 表 这 样 的 
信息 检索 数据 结构 中 使 用 缓存 ， 就 是 这 样 的 例子 。 
你 很 可 能 永远 都 不 会 自己 设计 处 理 器 。 这 是 专家 们 的 任务 ， 他 们 工作 在 全 球 不 到 100 
家 的 公司 里 。 那 么 为 什么 你 还 应 该 了 解 处 理 器 设计 呢 ? 
@ 从 智力 方面 来 说 ， 处 理 器 设计 是 非常 有 趣 而 且 很 重要 的 。 学 习 事 物 是 怎样 工作 的 
有 其 内 在 价值 。 了 解 作 为 计算 机 科学 家 和 工程 师 日 常生 活 一 部 分 的 一 个 系统 的 内 
部 工作 原理 (特别 是 对 很 多 人 来 说 这 还 是 个 谜 ) ， 是 件 格 外 有 趣 的 事情 。 处 理 器 设 
计 包 括 许多 好 的 工程 实践 原理 。 它 需要 完成 复杂 的 任务 ， 而 结构 又 要 尽 可 能 简单 
和 规则 。 

@ 理解 处 理 器 如 何 工 作 能 帮助 理解 整个 计算 机 系统 如 何 工作 。 在 第 6 章 ， 我 们 将 讲述 
存储 器 系统 ， 以 及 用 来 创建 很 大 的 内 存 映 像 同 时 又 有 快速 访问 时 间 的 技术 。 看 看 处 
理 器 端的 处 理 器 一 一 内 存 接口 ， 会 使 那些 讲述 更 加 完整 。 
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@ 虽然 很 少 有 人 设计 处 理 器 ， 但 是 许多 人 设计 包含 处 理 器 的 硬件 系统 。 将 处 理 器 诗人 
到 现实 世界 的 系统 中 ， 如 汽车 和 家 用 电器 ， 已 经 变 得 非常 普通 了 。 和 瞬 人 式 系统 的 设 
计 者 必须 了 解 处 理 器 是 如 何 工 作 的 ， 因 为 这 些 系统 通常 在 比 桌面 和 基于 服务 器 的 系 
统 更 低 抽 象 级 别 上 进行 设计 和 编程 。 

@ 你 的 工作 可 能 就 是 处 理 器 设计 。 虽 然 生 产 处 理 器 的 公司 很 少 ， 但 是 研究 处 理 器 的 设 
计 人 员 队 伍 已 经 非常 巨大 了 ， 而 且 还 在 壮大 。 一 个 主要 的 处 理 器 设计 的 各 个 方面 大 
约 涉及 1000 多 人 。 

本 章 首 先 定义 一 个 简单 的 指令 集 ， 作 为 我 们 处 理 器 实现 的 运行 示例 。 因 为 受 x86-64 
指令 集 的 启发 ， 它 被 俗称 为 “x86”， 所 以 我 们 称 我 们 的 指令 集 为 “Y86-64” 指 令 集 。 与 
x86-64 相 比 ，Y86-64 指令 集 的 数据 类 型 、 指 令 和 寻 址 方式 都 要 少 一 些 。 它 的 字 节 级 编码 
也 比较 简单 ， 机 器 代码 没有 相应 的 x86-64 代码 紧凑 ， 不 过 设计 它 的 CPU 译 码 逻辑 也 要 简 
单一 些 。 虽 然 Y86-64 指令 集 很 简单 ， 它 仍然 足够 完整 ， 能 让 我 们 写 一 些 处 理 整数 的 程序 。 
设计 一 个 实现 Y86-64 的 处 理 器 要 求 我 们 解决 许多 处 理 器 设计 者 同样 会 面 对 的 问题 。 

接 下 来 会 提供 一 些 数字 硬件 设计 的 背景 。 我 们 会 描述 处 理 器 中 使 用 的 基本 构件 块 ， 以 
及 它们 如 何 连 接 起 来 和 操作 。 这 些 介绍 是 建立 在 第 2 章 对 布尔 代数 和 位 级 操作 的 讨论 的 基 
础 上 的 。 我 们 还 将 介绍 一 种 描述 硬件 系统 控制 部 分 的 简单 语言 ，HCL(Hardware Control 
Language， 硬 件 控 制 语 言 ) 。 然 后 ， 用 它 来 描述 我 们 的 处 理 器 设计 。 即 使 你 已 经 有 了 一 些 
逻辑 设计 的 背景 知识 ， 也 应 该 读 读 这 个 部 分 以 了 解 我 们 的 特殊 符号 表示 方法 。 

作为 设计 处 理 器 的 第 一 步 ， 我 们 给 出 一 个 基于 顺序 操作 、 功 能 正确 但 是 有 点 不 实用 的 
Y86-64 处 理 器 。 这 个 处 理 器 每 个 时 钟 周期 执行 一 条 完整 的 Y86-64 指令 。 所 以 它 的 时 钟 必 
须 足 够 慢 ， 以 允许 在 一 个 周期 内 完成 所 有 的 动作 。 这 样 一 个 处 理 器 是 可 以 实现 的 ， 但 是 它 
的 性 能 远 远 低 于 同样 的 硬件 应 该 能 达到 的 性 能 。 

以 这 个 顺序 设计 为 基础 ， 我 们 进行 一 系列 的 改造 ， 创 建 一 个 流水 线 化 的 处 理 器 (pipe- 
lined processor)。 这 个 处 理 器 将 每 条 指令 的 执行 分 解 成 五 步 ， 每 个 步骤 由 一 个 独立 的 硬件 
部 分 或 阶段 (stage) 来 处 理 。 指 令 步 经 流水 线 的 各 个 阶段 ， 且 每 个 时 钟 周 期 有 一 条 新 指令 进 
入 流水 线 。 所 以 ， 处 理 器 可 以 同时 执行 五 条 指令 的 不 同 阶 段 。 为 了 使 这 个 处 理 器 保留 
Y86-64 ISA 的 顺序 行为 ， 就 要 求 处 理 很 多 冒险 或 冲突 (hazard) 情 况 ， 冒 险 就 是 一 条 指令 的 
位 置 或 操作 数 依 赖 于 其 他 仍 在 流水 线 中 的 指令 。 

我 们 设计 了 一 些 工具 来 研究 和 测试 处 理 器 设计 。 其 中 包括 Y86-64 的 汇编 器 、 在 你 的 机 
髓 上 运行 Y86-64 程序 的 模拟 器 ， 还 有 针对 两 个 顺序 处 理 器 设计 和 一 个 流水 线 化 处 理 器 设计 
的 模拟 器 。 这 些 设 计 的 控制 逻辑 用 HCL 符号 表示 的 文件 描述 。 通 过 编辑 这 些 文件 和 重新 编 
译 模 拟 器 ， 你 可 以 改变 和 扩展 模拟 器 行为 。 我 们 还 提供 许多 练习 ， 包 括 实 现 新 的 指令 和 修改 
机 器 处 理 指 令 的 方式 。 还 提供 测试 代码 以 帮助 你 评价 修改 的 正确 性 。 这 些 练习 将 极 大 地 帮助 
你 理解 所 有 这 些 内 容 ， 也 能 使 你 更 理解 处 理 器 设计 者 面临 的 许多 不 同 的 设计 选择 。 

网 络 旁 注 ARCH :VLOG 给 出 了 用 Verilog 硬件 描述 语言 描述 的 流水 线 化 的 Y86-64 处 
理 器 。 其 中 包括 为 基本 的 硬件 构建 块 和 整个 的 处 理 器 结构 创建 模块 。 我 们 自动 地 将 控制 逻 
辑 的 HCL 描述 翻译 成 Verilog。 首 先 用 我 们 的 模拟 器 调试 HCL 描述 ， 能 消除 很 多 在 硬件 
设计 中 会 出 现 的 棘手 的 问题 。 给 定 一 个 Verilog 描述 ， 有 商业 和 开源 工具 来 支持 模拟 和 加 
辑 合成 (logic synthesis)， 产 生 实 际 的 微 处 理 器 电路 设计 。 因 此 ， 虽 然 我 们 在 此 花费 大 部 
分 精力 创建 系统 的 图 形 和 文字 描述 ， 写 软件 的 时 候 也 会 花费 同样 的 精力 ， 但 是 这 些 设计 能 
够 自动 地 合成 ， 这 表明 我 们 确实 在 创建 一 个 能 够 用 硬件 实现 的 系统 。 
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4.1 Y86-64 指令 集体 系 结构 


定义 一 个 指令 集体 系 结构 (例如 Y86-64) 包 括 定义 各 种 状态 单元 、 指 令 集 和 它们 的 编 
码 、 一 组 编程 规范 和 异常 事件 处 理 。 


4.1.1 程序 员 可 见 的 状态 


如 图 4-1 所 示 ，Y86-64 程序 中 的 每 条 指令 都 会 读 取 或 修改 处 理 器 状态 的 某 些 部 分 。 这 
称 为 程序 员 可 见 状态 ， 这 里 的 “程序 员 ” 既 可 以 是 用 汇编 代码 写 程序 的 人 ， 也 可 以 是 产生 
机 器 级 代码 的 编译 器 。 在 处 理 器 实现 中 ， 只 要 RF. 程序 寄存 器 
我 们 保证 机 器 级 程序 能 够 访问 程序 员 可 见 状 
态 ， 就 不 需要 完全 按照 ISA 暗示 的 方式 来 表示 
和 组 织 这 个 处 理 器 状态 。Y86-64 的 状态 类 似 
于 x86-64。 有 15 个 程序 寄存 器 :Srax、%rcx、% | srpx | ar | gril | | 
rdx、$rbx、$ rsp、$rbp、$rsi、%rdi 和 sr8 到 
sr14。( 我 们 省 略 了 x86-64 的 寄存 器 $r15 以 简 ca [ | 
化 指令 的 编码 。) 每 个 程序 寄存 器 存储 一 个 64 i 
位 的 字 。 寄 存 器 srsp 被 人 栈 、 出 栈 、 调 用 和 
返回 指令 作为 栈 指 针 。 除 此 之 外 ， 寄 存 器 没有 


固定 的 含义 可 ， 有 3 个 一 位 的 条 件 码 ， 图 41 Y86-64 程序 员 可 见 状态 。 同 x86-64 一 
me rd alll 样 ，Y86-64 的 程序 可 以 访问 和 修改 各 





ZF、SF 和 OF， 它们 保存 着 最 近 的 算术 或 逻辑 序 寄 存 器 、 条 件 码 、 程 序 计数 器 (PC) 
指令 所 造成 影响 的 有 关 人 信息。 程序 计数 器 (PC) 和 内 存 。 状 态 码 指明 程序 是 否 运行 正 
存放 当前 正在 执行 指令 的 地 址 。 常 ， 或 者 发 生 了 某 个 特殊 事件 


内 存 从 概念 上 来 说 就 是 一 个 很 大 的 字 节 数组 ， 保 存 着 程序 和 数据 。Y86-64 程序 用 虚 
拟 地 址 来 引用 内 存 位 置 。 硬 件 和 操作 系统 软件 联合 起 来 将 虚拟 地 址 翻译 成 实际 或 物理 地 
址 ， 指 明 数 据 实际 存在 内 存 中 哪个 地 方 。 第 9 章 将 更 详细 地 研究 虚拟 内 存 。 现 在 ， 我 们 只 
认为 虚拟 内 存 系 统 向 Y86-64 程序 提供 了 一 个 单一 的 字 节 数组 映像 。 

程序 状态 的 最 后 一 个 部 分 是 状态 码 stat， 它 表明 程序 执行 的 总 体 状 态 。 它 会 指示 是 
正常 运行 ， 还 是 出 现 了 某 种 异常 ， 例 如 当 一 条 指令 试图 去 读 非 法 的 内 存 地 址 时 。 在 4.1.4 
节 中 会 讲述 可 能 的 状态 码 以 及 异常 处 理 。 


.4.1: 2 Y86-64 指令 


图 4-2 给 出 了 Y86-64 ISA 中 各 个 指令 的 简单 描述 。 这 个 指令 集 就 是 我 们 处 理 器 实现 

的 目标 。Y86-64 指令 集 基本 上 是 x86-64 指令 集 的 一 个 子 集 。 它 只 包括 8 字 节 整数 操作 ， 

寻 址 方式 较 少 ， 操 作 也 较 少 。 因 为 我 们 只 有 8 字 节 数据 ， 所 以 称 之 为 “ 字 (word)” 不 会 有 

任何 歧义 。 在 这 个 图 中 ， 左 边 是 指令 的 汇编 码 表 示 ， 右 边 是 字 节 编码 。 图 4-3 给 出 了 其 中 
一 些 指令 更 详细 的 内 容 。 汇 编 代码 格式 类 似 于 x86-64 的 ATT 格式 。 
下 面 是 Y86-64 指令 的 一 些 细节 。 | 

e x86-64 的 movq 指令 分 成 了 4 个 不 同 的 指令 ; irmovq、rrmovq、mrmovq 和 rmmovq， 

分 别 显 式 地 指明 源 和 目的 的 格式 。 源 可 以 是 立即 数 (i)、 寄 存 器 (r) 或 内 存 (m)。 指 令 

名 字 的 第 一 个 字母 就 表明 了 源 的 类 型 。 目 的 可 以 是 寄存 器 (r) 或 内 存 (m)。 指 令 名 字 的 

第 二 个 字母 指明 了 目的 的 类 型 。 在 决定 如 何 实 现 数 据 传送 时 ， 显 式 地 指明 数据 传送 的 
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这 4 种 类 型 是 很 有 帮助 的 。 
两 个 内 存 传送 指令 中 的 内 存 引 用 方式 是 简单 的 基 址 和 偏 移 量 形式 。 在 地 址 计算 
中 ， 我 们 不 支持 第 二 变 址 寄存 器 (second index register) 和 任何 寄存 器 值 的 伸缩 
(scaling) 。 
同 x86-64 一 样 ， 我 们 不 允许 从 一 个 内 存 地 址 直接 传送 到 另 一 个 内 存 地 址 。 另 
外 ， 也 不 允许 将 立即 数 传 送 到 内 存 。 
有 4 个 整数 操作 指令 ， 如 图 4-2 中 的 oPq。 它 们 是 addq、subq、andq 和 xorq。 它 
们 只 对 寄存 器 数据 进行 操作 ， 而 x86-64 还 允许 对 内 存 数据 进行 这 些 操 作 。 这 些 指令 
会 设置 3 个 条 件 码 ZzF、SF 和 oF( 零 、 符 号 和 洲 出 )。 
7 个 跳 转 指令 (图 4-2 中 的 jxx) 是 jmp、jle、j1、je、jne、jge 和 jg。 根据 分 支 
指令 的 类 型 和 条 件 代码 的 设置 来 选择 分 支 。 分 支 条 件 和 x86-64 的 一 样 ( 见 图 3-15)。 
有 6 个 条 件 传送 指令 (图 4-2 中 的 cmovXX) :cmovle、cmov1、cmove、cmovne、 
cmovge 和 cmovg。 这 些 指令 的 格式 与 寄存 器 -寄存 器 传送 指令 rrmovq 一 样 ， 但 是 
只 有 当 条 件 码 满足 所 需要 的 约束 时 ， 才 会 更 新 目的 寄存 器 的 值 。 
e call 指令 将 返回 地 址 人 栈 ， 然 后 跳 到 目的 地 址 。zret 指令 从 这 样 的 调用 中 返回 。 
e pushq 和 popq 指令 实现 了 入 栈 和 出 栈 ， 就 像 在 x86-64 中 一 样 。 
e halt 指令 停止 指令 的 执行 。x86-64 中 有 一 个 与 之 相当 的 指令 nlt。x86-64 的 应 用 
程序 不 允许 使 用 这 条 指令 ， 因 为 它 会 导致 整个 系统 暂停 运行 。 对 于 Y86-64 来 说 ， 
执行 halt 指令 会 导致 处 理 器 停止 ， 并 将 状态 码 设置 为 HLT( 参 见 4.1.4 节 )。 


字 节 0 下 2 3 4 5 6 7 8 9 
halt 


rrmovg rA, rB 

i we | 
ommova A, Da) 
nmovaDtB) A BIAE 
oPq rA, IB |6 |fin|rA|rB| 

cmovxx rA, rB 

ret 

pusha A 5 Tae] 

popa WA 


图 4-2 Y86-64 指令 集 。 指 令 编 码 长 度 从 1 个 字 节 到 10 个 字 节 不 等 。 一 条 指令 含有 一 个 单字 节 的 
指令 指示 符 ， 可 能 含有 一 个 单字 节 的 寄存 器 指示 符 ， 还 可 能 含有 一 个 8 字 节 的 常数 字 。 字 段 fn 
指明 是 某 个 整数 操作 (oPq) 、 数 据 传 送 条 件 (cmovXX) 或 是 分 支 条 件 (jXx)。 所 有 的 数值 都 
用 十 六 进 制 表示 











4.1.3 指令 编码 


图 4-2 还 给 出 了 指令 的 字 节 级 编码 。 每 条 指令 需要 1 一 10 个 字 节 不 等 ， 这 取决 于 需要 
哪些 字段 。 每 条 指令 的 第 一 个 字 节 表 明 指 令 的 类 型 。 这 个 字 节 分 为 两 个 部 分 ， 每 部 分 4 
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位 : 高 4 位 是 代码 (code) 部 分 ， 低 4 位 是 功能 (function) 部 分 。 如 图 4-2 所 示 ， 代 码 值 为 
0~0xB。 功 能 值 只 有 在 一 组 相关 指令 共用 一 个 代码 时 才 有 用 。 图 4-3 给 出 了 整数 操作 、 分 
支 和 条 件 传送 指令 的 具体 编码 。 可 以 观察 到 ，rrmovaq 与 条 件 传送 有 同样 的 指令 代码 。 可 
以 把 它 看 作 是 一 个 “无 条 件 传送 ”， 就 好 像 jmp 指令 是 无 条 件 跳 转 一 样 ， 它 们 的 功能 代码 
都 是 0。 


整数 操作 指令 分 支 指令 传送 指令 
aaad jmp jne rrmovq| 2 [0 | cmovne 
subgq jle jge cmovle| 21 1 | cmovee 
anaa|6[2 |] j1 jg [7|s| cmovl cmovg [2|6| 
xora | 6 [3 | je cmove 


图 4-3 Y86-64 指令 集 的 功能 码 。 这 些 代 码 指明 是 某 个 整数 操作 、 分 支 条 件 还 是 数据 传送 
条 件 。 这 些 指令 是 图 4-2 中 所 示 的 OPq、jXX 和 cmovXX 


如 图 4-4 所 示 ，15 个 程序 寄存 器 中 每 个 都 有 一 个 相对 应 的 范围 在 0 到 0xE 之 间 的 寄存 
器 标识 符 (register ID)。Y86-64 中 的 寄存 器 编号 跟 x86-64 中 的 相同 。 程 序 寄 存 器 存在 
CPU 中 的 一 个 寄存 器 文件 中 ， 这 个 寄存 器 文件 就 是 一 个 小 的 、 以 寄存 器 ID 作为 地 址 的 随 
机 访问 存储 器 。 在 指令 编码 中 以 及 在 我 们 的 硬件 设计 中 ， 当 需要 指明 不 应 访问 任何 寄存 器 
时 ， 就 用 ID 值 0xF 来 表示 。 











-J oO a A WW ND 2 oO 








mH HO NO HW » Oo % 








图 4-4 Y86-64 程序 寄存 器 标识 符 。15 个 程序 寄存 器 中 每 个 都 有 一 个 相对 应 的 标识 符 (ID)， 范 围 为 
0 一 0xE。 如 果 指 令 中 某 个 寄存 器 字段 的 ID 值 为 0xF， 就 表明 此 处 没有 寄存 器 操作 数 


有 的 指令 只 有 一 个 字 节 长 ， 而 有 的 需要 操作 数 的 指令 编码 就 更 长 一 些 。 首 先 ， 可 能 有 
附加 的 寄存 器 指示 符 字 节 (register specifier byte) ， 指 定 一 个 或 两 个 寄存 器 。 在 图 4-2 中 ， 
这 些 寄 存 器 字段 称 为 rA 和 rB。 从 指令 的 汇编 代码 表示 中 可 以 看 到 ， 根 据 指令 类 型 ， 指 令 
可 以 指定 用 于 数据 源 和 目的 的 寄存 器 ， 或 是 用 于 地 址 计算 的 基 址 寄存 器 。 没 有 寄存 器 操作 
数 的 指令 ， 例 如 分 支 指令 和 call 指令 ， 就 没有 寄存 器 指示 符 字 节 。 那 些 只 需要 一 个 寄存 
恬 操 作 数 的 指令 (ijrmovq、pushq 和 popq) 将 另 一 个 寄存 器 指示 符 设 为 0xF。 这 种 约定 在 
我 们 的 处 理 器 实现 中 非常 有 用 。 

有 些 指令 需要 一 个 附加 的 4 字 节 常数 字 (constant word)。 这 个 字 能 作为 irmovaq 的 立 
即 数 数据 ，rmmovqg 和 mrmovq 的 地 址 指示 符 的 偏 移 量 ， 以 及 分 支 指令 和 调用 指令 的 目的 
地 址 。 注 意 ， 分 支 指令 和 调用 指令 的 目的 是 一 个 绝对 地 址 ， 而 不 像 IA32 中 那样 使 用 PC 
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(程序 计数 器 ) 相 对 寻 址 方式 。 处 理 器 使 用 PC 相对 寻 址 方式 ， 分 支 指令 的 编码 会 更 简洁 ， 
同时 这 样 也 能 允许 代码 从 内 存 的 一 部 分 复制 到 另 一 部 分 而 不 需要 更 新 所 有 的 分 支 目 标 地 
址 。 因 为 我 们 更 关心 描述 的 简单 性 ， 所 以 就 使 用 了 绝对 寻 址 方式 。 同 IA32 一 样 ， 所 有 整 
数 采 用 小 端 法 编码 。 当 指令 按照 反 汇 编 格式 书写 时 ， 这 些 字 节 就 以 相反 的 顺序 出 现 。 
例如 ， 用 十 六 进 制 来 表示 指令 rmmovq $rsp，0x123456789abcd (%rdx) 的 字 节 编 码 。 
从 图 4-2 我 们 可 以 看 到 ，rmmovq 的 第 一 个 字 节 为 40。 源 寄存 器 srsp 应 该 编码 放 在 rA 
字段 中 ， 而 基 址 寄存 器 srdx 应 该 编码 放 在 rB 字段 中 。 根 据 图 4-4 中 的 寄存 器 编号 ， 我 
们 得 到 寄存 器 指示 符 字 节 42。 最 后 ， 偏 移 量 编码 放 在 8 字 节 的 常数 字 中 。 首 先 在 
0x123456789abcd 的 前 面 填充 上 0 变 成 8 个 字 节 ， 变 成 字 节 序列 00 01 23 45 67 89 ab cd。 
写成 按 字 节 反 序 就 是 cd ab 89 67 45 23 01 00。 将 它们 都 连接 起 来 就 得 到 指令 的 编码 
4042cdab896745230100。 
指令 集 的 一 个 重要 性 质 就 是 字 节 编码 必须 有 唯一 的 解释 。 任 意 一 个 字 节 序列 要 么 是 一 
个 唯一 的 指令 序列 的 编码 ， 要 么 就 不 是 一 个 合法 的 字 节 序列 。Y86-64 就 具有 这 个 性 质 ， 
因为 每 条 指令 的 第 一 个 字 节 有 唯一 的 代码 和 功能 组 合 ， 给 定 这 个 字 节 ， 我 们 就 可 以 决定 所 
有 其 他 附加 字 节 的 长 度 和 含义 。 这 个 性 质保 证 了 处 理 器 可 以 无 二 义 性 地 执行 目标 代码 程 
序 。 即 使 代码 能 人 在 程序 的 其 他 字 节 中 ， 只 要 从 序列 的 第 一 个 字 节 开 始 处 理 ， 我 们 仍然 可 
以 很 容易 地 确定 指令 序列 。 反 过 来 说 ， 如 果 不 知 道 一 段 代码 序列 的 起 始 位 置 ， 我 们 就 不 能 
准确 地 确定 怎样 将 序列 划分 成 单独 的 指令 。 对 于 试图 直接 从 目标 代码 字 节 序列 中 抽取 出 机 
器 级 程序 的 反 汇 编程 序 和 其 他 一 些 工具 来 说 ， 这 就 带 来 了 问题 。 
对 练习 题 4.1 确定 下 面 的 Y86-64 指令 序列 的 字 节 编码 。“.pos 0x100” 那 一 行 表明 这 
段 目标 代码 的 起 始 地 址 应 该 是 0x100。 
.pos Ox100 # Start code at address Ox100 
irmovd $15,%rbx 
TImOVQq %rbx,%rcx 
loop: 
rmmovg %rcx,-3(%rbx) 
addq  %rbx,%rcx 
jmp loop 
司 S 练习 题 4.2 ”确定 下 列 每 个 字 节 序列 所 编码 的 Y86-64 指令 序列 。 如 果 序 列 中 有 不 合 
法 的 字 节 ， 指 出 指令 序列 中 不 合法 值 出 现 的 位 置 。 每 个 序列 都 先 给 出 了 起 始 地 址 ， 置 
号 ， 然 后 是 字 节 序列 。 
A. Ox100: 30f3fcffffffffffffff40630008000000000000 
B. 0x200: a06f800c020000000000000030f30a0000000000000090 
C. Ox300: 5054070000000000000010fO0b0O1f 
D. 0x400: 611373000400000000000000 
E. 0x500: 6362a0f0 


区 要 比较 x86-64 和 Y86-64 的 指令 编码 : 

同 x86-64 中 的 指令 编码 相 比 ，Y86-64 的 编码 简单 得 多 ,但 是 没 那么 紧凑 。 在 所 有 : 
的 Y86-64 指令 中 ， 寄 存 器 字段 的 位 置 都 是 固定 的 ， 而 在 不 同 的 x86-64 指令 中 ， 它 们 的 
位 置 是 不 一 样 的 。x86-64 可 以 将 常数 值 编码 成 ]1、2、4 或 8 个 字 节 ， 而 Y86-64 总 是 将 ， 
常数 值 编码 成 8 个 字 节 。 1 
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” x86-64 有 时 称 为 “复杂 指令 集 计算 机 ”(CISC， 读 作 “sisk”)， 与 “精简 指令 集 计 
算 机 ”(RISC， 读 作 “risk”) 相 对 。 从 历史 上 看 ， 先 出 现 了 CISC 机 器 ， 它 从 最 早 的 计算 
机 演化 而 来 。 到 20 世纪 80 年 代 早 期 ， 随 着 机 器 设计 者 加 入 了 很 多 新 指令 来 支持 高 级 任 
务 ( 例 如 处 理 循环 缓冲 区 ， 执 行 十 进 制 数 计算 ， 以 及 求 多 项 式 的 值 )， 大 型 机 和 小 型 机 的 
引 令 集 已 经 灾 得 非常 庞大 了 。 最 早 的 微 处 理 器 出 现在 20 世纪 70 年 代 早 期 ， 因 为 当时 的 
集成 电路 技术 极 大 地 制约 了 一 块 芯片 上 能 实现 些 什么 ， 所 以 它们 的 指令 集 非常 有 限 。 微 
处 理 器 发 展 得 很 快 ， 到 20 世纪 80 年 代 早 期 ， 大 型 机 和 小 型 机 的 指令 集 复 杂 度 一 直 都 在 
增加 。x86 家 族 沿 着 这 条 道路 发 展 到 IA32， 最 近 是 x86-64。 即 使 是 x86 系列 也 仍然 在 不 
断 地 变化 ， 基 于 新 出 现 的 应 用 的 需要 ， 增 加 新 的 指令 类 。 

20 世纪 80 年 代 早 期 ，RISC 的 设计 理念 是 作为 上 述 发 展 趋势 的 一 种 替代 而 发 展 起 来 
的 。IBM 的 一 组 硬件 和 编译 器 专家 受到 IBM 研究 员 John Cocke 的 很 大 影响 ， 认 为 他 们 
可 以 为 更 简单 的 指令 集 形 式 产 生 高 效 的 代码 。 实 际 上 ， 许 多 加 到 指令 集中 的 高 级 指令 很 
难 被 编译 器 产生 ， 所 以 也 很 少 被 用 到 。 一 个 较为 简单 的 指令 集 可 以 用 很 少 的 硬件 实现 ， 
能 以 高 效 的 流水 线 结构 组 织 起 来 ， 类 似 于 本 章 后 面 描述 的 情况 。 直 到 多 年 以 后 IBM 才 
将 这 个 理念 商品 化 ， 开 发 出 了 Power 和 PowerPC ISA。 

加 州 大 学 伯克利 分 校 的 David Patterson 和 斯 坦 福 大 学 的 John Hennessy 进一步 发 展 
了 RISC 的 概念 。Patterson 将 这 种 新 的 机 器 类 型 命名 为 RISC， 而 将 以 前 的 那 种 称 为 
CISC， 因 为 以 前 没有 必要 给 一 种 几乎 是 通用 的 指令 集 格式 起 名 字 。 

比较 CISC 和 最 初 的 RISC 指令 集 ， 我 们 发 现下 面 这 些 一 般 特 性 。 


指令 数量 很 多 。Intel 描述 全 套 指 令 的 文档 [51] 有 
1200 多 页 。 

有 些 指令 的 延迟 很 长 。 包 括 将 一 个 整 块 从 内 存 的 一 个 
部 分 复制 到 另 一 部 分 的 指令 ， 以 及 其 他 一 些 将 多 个 寄存 
器 的 值 复制 到 内 存 或 从 内 存 复制 到 多 个 寄存 器 的 指令 。 

编码 是 可 变 长 度 的 。x86-64 的 指令 长 度 可 以 是 1 一 
15 个 字 节 。 

指定 操作 数 的 方式 很 多 样 。 在 x86-64 中 ， 内 存 操作 
数 指示 符 可 以 有 许多 不 同 的 组 合 ， 这 些 组 合 由 偏 移 量 、 
基 址 和 变 址 寄存 器 以 及 伸缩 因子 组 成 。 

可 以 对 内 存 和 寄存 器 操作 数 进 行 算术 和 逻辑 运算 。 





对 机 器 级 程序 来 说 实现 细节 是 不 可 见 的 。ISA 提供 
了 程序 和 如 何 执行 程序 之 间 的 清晰 的 抽象 。 





有 条 件 码 。 作 为 指令 执行 的 副产品 ， 设 置 了 一 些 特 
殊 的 标志 位 ， 可 以 用 于 条 件 分 支 检测 。 

栈 密 集 的 过 程 链接 。 栈 被 用 来 存 取 过 程 参 数 和 返回 
地 址 。 





早期 的 RISC 
指令 数量 少 得 多 。 通 常 少 于 100 个 。 


没有 较 长 延迟 的 指令 。 有 些 早 期 的 RISC 机 器 甚至 没 
有 整数 乘法 指令 ， 要 求 编译 器 通过 一 系列 加 法 来 实现 
乘法 。 

编码 是 固定 长 度 的 。 通 常 所 有 的 指令 都 编码 为 4 个 
季节 和 


简单 寻 址 方式 。 通 常 只 有 基 址 和 偏 移 量 寻 址 。 








只 能 对 寄存 器 操作 数 进行 算术 和 逻辑 运算 。 人 允许 使 用 
内 存 引 用 的 只 有 load 和 store 指令 ，load 是 从 内 存 读 到 
寄存 器 ，store 是 从 寄存 器 写 到 内 存 。 这 种 方法 被 称 为 
load/store 体系 结构 。 


对 机 器 级 程序 来 说 实现 细节 是 可 见 的 。 有 些 RISC 机 
器 禁止 某 些 特 殊 的 指令 序列 ， 而 有 些 跳 转 要 到 下 一 条 指 
令 执 行 完 了 以 后 才 会 生效 。 编 译 器 必须 在 这 些 约束 条 件 
下 进行 性 能 优化 。 

没有 条 件 码 。 相 反 ， 对 条 件 检测 来 说 ， 要 用 明确 的 测试 
指令 ， 这 些 指令 会 将 测试 结果 放 在 一 个 普通 的 寄存 器 中 。 

寄存 器 密集 的 过 程 链 接 。 寄 存 器 被 用 来 存 取 过 程 参 数 
和 返回 地 址 。 因 此 有 些 过 程 能 完全 避免 内 存 引 用 。 通 常 
处 理 器 有 更 多 的 (最 多 的 有 32 个 ) 寄 存 器 。 
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Y86-64 指令 集 虐 有 CISC 指令 集 的 属性 ， 也 有 RISC 指令 集 的 属性 。 和 CISC 一 样 ， 
它 有 条 件 码 、 长 度 可 变 的 指令 ， 并 用 栈 来 保存 返回 地 址 。 和 RISC 一 样 的 是 ， 它 采用 
load/store 体系 结构 和 规则 编码 ， 通 过 寄存 器 来 传递 过 程 参数 。Y86-64 指令 集 可 以 看 成 
是 采用 CISC 指令 集 (x86)， 但 又 根据 某 些 RISC 的 原理 进行 了 简化 。 


国 滞 Risc 与 CISC 之 争 

20 世纪 80 年代， 计算 机 体系 结构 领域 里 关于 RISC 指令 集 和 CISC 指令 集 优 缺点 的 
争论 十 分 激烈 。RISC 的 支持 者 声称 在 给 定 硬件 数量 的 情况 下 ， 通 过 结合 简约 式 指 令 集 
设计 、 高 级 编译 器 技术 和 流水 线 化 的 处 理 器 实现 ， 他 们 能 够 得 到 更 强 的 计算 能 力 。 而 
CISC 的 拥有 悉 反驳 说 要 完成 一 个 给 定 的 任务 只 需要 用 较 少 的 CISC 指令 ， 所 以 他 们 的 机 器 
能 够 获得 更 高 的 总 体 性 能 。 

大 多 数 公司 都 推出 了 RISC 处 理 器 系列 产品 ， 包 括 Sun Microsystems (SPARC)、 
IBM 和 Motorola(PowerPC) ， 以 及 Digital Equipment Corporation(Alpha) 。 一 家 英国 公 
司 Acorn Computers Ltd. 提出 了 自己 的 体系 结构 ARM( 最 开始 是 “Acorn RISC 
Machine” 的 首 字 母 缩 写 ) ， 广 泛 应 用 在 谈 入 式 系统 中 (比如 手机 ) 。 

20 世纪 90 年 代 早 期 ， 争 论 逐 渐 平 息 ， 因 为 事实 已 经 很 清楚 了 ， 无 论 是 单纯 的 RISC 
还 是 单纯 的 CISC 都 不 如 结合 两 者 思想 精华 的 设计 。RISC 机 器 发 展 进化 的 过 程 中 ， 引 入 
了 更 多 的 指令 ， 而 许多 这 样 的 指令 都 需要 执行 多 个 周期 。 今 天 的 RISC 机 器 的 指令 表 中 
有 几 百 条 指令 ， 几 乎 与 “精简 指令 集 机 器 ”的 名 称 不 相符 了 。 那 种 将 实现 细节 暴露 给 机 
器 级 程序 的 思想 已 经 被 证 明 是 目光 短 浅 的 。 随 着 使 用 更 加 高 级 硬件 结构 的 新 处 理 器 模型 
的 开发 ， 许 多 实现 细节 已 经 变 得 很 落后 了 ， 但 它们 仍然 是 指令 集 的 一 部 分 。 不 过 ， 作 为 
RISC 设计 的 核心 的 指令 集 仍 然 是 非常 适合 在 流水 线 化 的 机 器 上 执行 的 。 

比较 新 的 CISC 机 器 也 利用 了 高 性 能 流水 线 结构 。 就 像 我 们 将 在 5.7 节 中 讨论 的 那 
样 ， 它 们 读 取 CISC 指令 ， 并 动态 地 翻译 成 比较 简单 的 、 像 RISC 那样 的 操作 的 序列 。 
例如 ， 一 条 将 寄存 器 和 内 存 相 加 的 指令 被 翻译 成 三 个 操作 : 一 个 是 读 原始 的 内 存 值 ， 一 
个 是 执行 加 法 运算 ， 第 三 就 是 将 和 写 回 内 存 。 由 于 动态 翻译 通常 可 以 在 实际 指令 执行 前 
进行 ， 处 理 器 仍然 可 以 保持 很 高 的 执行 速率 。 

除了 技术 因素 以 外 ， 市 场 因素 也 在 决定 不 同 指令 集 是 否 成 功 中 起 了 很 重要 的 作用 。 

通过 保持 与 现 有 处 理 器 的 兼容 性 ，Intel 以 及 x86 使 得 从 一 代 处 理 器 迁移 到 下 一 代 变 得 
很 容易 。 由 于 集成 电路 技术 的 进步 ，Intel 和 其 他 x86 处 理 器 制造 商 能 够 克服 原来 8086 
旨 念 集 设 计 造 成 的 低 效 率 ， 使 用 及 ISC 技术 产生 出 与 最 好 的 RISC 机 器 相当 的 性 能 。 正 
如 我 们 在 第 3. 1 节 中 看 到 的 那样 ，IA32 发 展演 变 到 x86-64 提供 了 一 个 机 会 ， 使 得 能 够 
将 RISC 的 一 些 特性 结合 到 x86 中 。 在 桌面 、 便 的 计算机 和 基于 服务 器 的 计算 领域 里 ， 
x86 已 经 占据 了 完全 的 统治 地 位 。 

RISC 处 理 器 在 嵌入 式 处 理 器 市 场 上 表现 得 非常 出 色 ， 谋 入 式 处 理 器 负责 控制 移动 
电话 、 汽 车 刹车 以 及 因特网 电器 等 系统 。 在 这 些 应 用 中 ， 降 低 成 本 和 功 耗 比 保持 后 向 兼 
容 性 更 重要 。 就 出 售 的 处 理 器 数量 来 说 ， 这 是 个 非常 广阔 而 迅速 成 长 着 的 市 场 。 





4. 1.4 Y86-64 异常 


对 Y86-64 来 说 ， 程 序 员 可 见 的 状态 (图 4-1) 包 括 状态 码 Stat， 它 描述 程序 执行 的 总 
体 状 态 。 这 个 代码 可 能 的 值 如 图 4-5 所 示 。 代 码 值 1， 命 名 为 AoK， 表 示 程 序 执行 正常 ， 


第 和音 处 理 器 体系 结构 ” 251 











而 其 他 一 些 代码 则 表示 发 生 了 某 种 类 型 的 异常 。 代 码 2， 命 名 为 HLT， 表 示 处 理 器 执行 了 

一 条 halt 指令 。 代 码 3， 命 名 为 ADR， 表 示人 处 理 器 试图 从 一 个 非法 内 存 地 址 读 或 者 向 一 

个 非法 内 存 地 址 写 ， 可 能 是 当 取 指令 的 时 候 ， 也 

可 能 是 当 读 或 者 写 数据 的 时 候 。 我 们 会 限制 最 大 站 一 | 一 | 

的 地 址 (确切 的 限定 值 因 实现 而 异 )， 任 何 访问 超 | 。 | | 名 名 如 二 入 

出 这 个 限定 值 的 地 址 都 会 引发 ADR 异常 。 代 码 | 。 | | aa 

4， 命 名 为 INS， 表 示 遇 到 了 非法 的 指令 代码 。 外 INS 遇 到 非法 指令 
省 全 我 国 46 全 (下 状 术 丙 ,在 旨 们 的 刘 计 中 ， 





值 | 名 字 | 含义 











们 就 简单 地 让 处 理 器 停止 执行 指令 。 在 更 完整 的 任何 AoK 以 外 的 代码 都 会 使 处 理 器 
设计 中 ， 处 理 器 通常 会 调用 一 个 异常 处 理 程序 停止 


(exception handler) ， 这 个 过 程 被 指定 用 来 处 理 遇 到 的 某 种 类 型 的 异常 。 就 像 在 第 8 章 中 
讲述 的 ， 蜡 常 处 理 程序 可 以 被 配置 成 不 同 的 结果 ， 例 如 ， 中 止 程序 或 者 调用 一 个 用 户 自 定 
义 的 信号 处 理 程序 (signal handler) 。 


4.1.5 Y86-64 程序 
图 4-6 给 出 了 下 面 这 个 C 函数 的 x86-64 和 Y86-64 汇编 代码 : 





1 long sum(long *start, long count) 
-et 
3 long sum = 0; 
4 while (count) { 
5 sum += *start, 
6 start++; 
7 SU 一 
8 
9 return sum; 
10 
x86-64 code Y86-64 code 
long sum(long *start, long count) long sum(long *start, long count) 
start dn Wrdis counb 1m Yrsi start in Yrdi, count im Yrsi 
1 sum: 1 sunm: 
交 movl $0, Weax sum = 0 irmovg $8,%r8 Constant 8 
3 jmp .L2 Goto test 3 irmovg $1,%r9 Constant 1 
六 a loop: 4 Xorq hrax,%rax sum = 0 
5 addq (Xrdi), %rax hdd *start to sum 5 andq %rsi,%rsi Set CC 
6 addq $8, %rdi start++t 6 jmp test Goto test 
7 subq $1, %rsi count—- 7 loop: 
8 .L2: test: 8 mrmovgq (%rdi),%r1i0 Get *start 
9 testq  %rsi, %rsi Test sum 9 addq %r10,%rax Add to sum 
10 jne sb3 If !=0, goto loop 10 addq %r8,%rdi start++ 
nT rep; ret Return 人 Subq %r9,%rsi Count--， Set CC 
12 test: 
售 jne loop Stop when 0 
14 ret Return 








图 4-6 Y86-64 汇编 程序 与 x86-64 汇编 程序 比较 。Sunm 函数 计算 一 个 整数 数组 的 和 。 
Y86-64 代码 与 x86-64 代码 遵循 了 相同 的 通用 模式 
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x86-64 代码 是 由 GCC 编译 器 产生 的 。Y86-64 代码 与 之 类 似 ， 但 有 以 下 不 同 点 : 

e Y86-64 将 常数 加 载 到 寄存 器 (第 2 一 3 行 )， 因 为 它 在 算术 指令 中 不 能 使 用 立即 数 。 

e 要 实现 从 内 存 读 取 一 个 数值 并 将 其 与 一 个 寄存 器 相 加 ，Y86-64 代码 需要 两 条 指令 
(第 8 一 9 行 )， 而 x86-64 只 需要 一 条 addq 指令 (第 5 行 )。 

e 我 们 手工 编写 的 Y86-64 实现 有 一 个 优势 ， 即 subq 指令 (第 11 行 ) 同 时 还 设置 了 条 
件 码 ， 因 此 GCC 生成 代码 中 的 testaq 指令 (第 9 行 ) 就 不 是 必需 的 。 不 过 为 此 ， 
Y86-64 代码 必须 用 andq 指令 (第 5 行 ) 在 进入 循环 之 前 设置 条 件 码 。 

图 4-7 给 出 了 用 Y86-64 汇编 代码 编写 的 一 个 完整 的 程序 文件 的 例子 。 这 个 程序 既 包 

括 数 据 ， 也 包括 指令 。 伪 指令 (directive) 指 明 应 该 将 代码 或 数据 放 在 什么 位 置 ， 以 及 如 何 
对 齐 。 这 个 程序 详细 说 明了 栈 的 放置 、 数 据 初 始 化 、 程 序 初始 化 和 程序 结束 等 问题 。 











| 1 # Execution begins at address 0 
2 .pos 0 
3 irmovd stack, %rsp # Set up stack pointer 
4 call main # Execute main program 
5 halt # Terminate program 
6 
7 # Array of 4 elements 
8 .align 8 
9 array: 
10 .quad Ox000d000d000d 
11 .quad 0Xx00c000c000c0 
12 .quad 0x0Ob000b000b00 
13 .quad 0xa000a000a000 
14 | 
15 main: 
16 irmovq array,%rdi 
17 irmovq $4,%rsi 
18 call sum # sum(array, 4) 
19 ret 
20 
21  # long sum(long *start, long count) 
22 # start in %rdi, count in %rsi 
23 sum: 
24 irmovgq $8,%r8 # Constant 8 
25 irmovd $1,%r9 # Constant 1 
26 XOIQq %rax,%hrax # sum = 0 
27 andq %rsi,%rsi # Set CC 
28 jmp test # Goto test 
29 loop: 
30 mrmovq (%rdi),%r1i0 # Get *start 
31 addq %r10,%rax # Add to sum 
32 addq %r8,%rdi # start++ 
33 subq %r9,%rsi # count--. Set CC 
34 test : 
35 jne loop # Stop when 0 
36 ret # Return 


38 # Stack starts here and grows to lower addresses 
39 .Pos Ox200 
40 stack: 


图 4-7 用 Y86-64 汇编 代码 编写 的 一 个 例子 程序 。 调 用 sum 函数 来 计算 一 个 具有 4 个 元 素 的 数组 的 和 
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在 这 个 程序 中 ， 以 “. ”开头 的 词 是 汇编 器 伪 指 令 (assembler directives) ， 它 们 告诉 汇 
编 器 调整 地 址 ， 以 便 在 那儿 产生 代码 或 插入 一 些 数据 。 伪 指令 .pos 0( 第 2 行 ) 告 诉 汇编 器 
应 该 从 地 址 0 处 开始 产生 代码 。 这 个 地 址 是 所 有 Y86-64 程序 的 起 点 。 接 下 来 的 一 条 指令 
(第 3 行 ) 初 始 化 栈 指 针 。 我 们 可 以 看 到 程序 结尾 处 (第 40 行 ) 声 明了 标号 stack， 并 且 用 
一 个 .pos 伪 指 令 ( 第 39 行 ) 指 明 地 址 0x200。 因 此 栈 会 从 这 个 地 址 开始 ， 向 低地 址 增长 。 
我 们 必须 保证 栈 不 会 增长 得 太 大 以 至 于 覆盖 了 代码 或 者 其 他 程序 数据 。 

程序 的 第 8 一 13 行 声明 了 一 个 4 个 字 的 数组 ， 值 分 别 为 

Ox000d000d000d000d, 0x00c000c000c000c0 
0xob000b000b000b00，0xa000a000a000a000 
标号 array 表明 了 这 个 数组 的 起 始 ， 并 且 在 8 字 节 边界 处 对 齐 ( 用 .align 伪 指 令 指 定 )。 
第 16 一 19 行 给 出 了 “main” 过 程 ， 在 过 程 中 对 那个 四 字数 组 调用 了 sum 函数 ， 然 后 停止 。 

正如 例子 所 示 ， 由 于 我 们 创建 Y86-64 代码 的 唯一 工具 是 汇编 器 ， 程 序 员 必须 执行 本 
来 通常 交 给 编译 器 、 链 接 器 和 运行 时 系统 来 完成 的 任务 。 幸 好 我 们 只 用 Y86-64 来 写 一 些 
小 的 程序 ， 对 此 一 些 简单 的 机 制 就 足够 了 。 

图 4-8 是 YAS 的 汇编 器 对 图 4-7 中 代码 进行 汇编 的 结果 。 为 了 便于 理解 ， 汇 编 器 的 输 
出 结果 是 ASCII 码 格式 。 汇 编 文件 中 有 指令 或 数据 的 行 上 ， 目 标 代码 包含 一 个 地 址 ， 后 面 
跟着 1 一 10 个 字 节 的 值 。 

我 们 实现 了 一 个 指令 集 模拟 器 ， 称 为 YIS， 它 的 目的 是 模拟 Y86-64 机 器 代码 程序 的 
执行 ， 而 不 用 试图 去 模拟 任何 具体 处 理 器 实现 的 行为 。 这 种 形式 的 模拟 有 助 于 在 有 实际 硬 
件 可 用 之 前 调试 程序 ， 也 有 助 于 检查 模拟 硬件 或 者 在 硬件 上 运行 程序 的 结果 。 用 YIS 运行 

例子 的 目标 代码 ， 产 生 如 下 输出 : 


Stopped in 34 steps at PC = Ox13. 
Changes to registers: 


Status 'HLT', CC 2Z=1 S=0 0=0 


%rax 0x0000000000000000 Ox0000abcdabcdabcd 
rsp Ox0000000000000000 Ox0000000000000200 
Xrdi 0x0000000000000000 Ox0000000000000038 
%r8: 0x0000000000000000 Ox0000000000000008 
%r9: 0x0000000000000000 0x0000000000000001 
%r10 Ox0000000000000000 0x0000a000a000a000 
Changes to memory: 
0x01f0: Ox0000000000000000 Ox0000000000000055 
”0x01f8: 0x0000000000000000 Ox0000000000000013 


模拟 输出 的 第 一 行 总 结 了 执行 以 及 PC 和 程序 状态 的 结果 值 。 模 拟 器 只 打印 出 在 模拟 
过 程 中 被 改变 了 的 寄存 器 或 内 存 中 的 字 。 左 边 是 原始 值 (这 里 都 是 0)， 和 右边 是 最 终 的 值 。 
从 输出 中 我 们 可 以 看 到 ， 寄 存 器 srax 的 值 为 0xabcdabcdabcdabcd， 即 传 给 子 函 数 sum 
的 四 元 素数 组 的 和 。 另 外 ， 我 们 还 能 看 到 栈 从 地 址 0x200 开始 ， 向 下 增长 ， 栈 的 使 用 导致 
内 存 地 址 0x1f0 一 0xlf8 发 生 了 变化 。 可 执行 代码 的 最 大 地 址 为 0x090， 所 以 数值 的 人 栈 
和 出 栈 不 会 破坏 可 执行 代码 。 
放 练习 题 4. 3 机 器 级 程序 中 常见 的 模式 之 一 是 将 一 个 常数 值 与 一 个 寄存 器 相 加 。 利 用 
目前 已 给 出 的 Y86-64 指令 ， 实 现 这 个 操作 需要 一 条 irmovq 指令 把 常数 加 载 到 寄存 
器 ， 然 后 一 条 addq 指令 把 这 个 寄存 器 值 与 目标 寄存 器 值 相 加 。 假 设 我 们 想 增 加 一 条 
新 指令 iaddq， 格 式 如 下 : 


254 第 一 部 分 程序 结构 和 执行 





| 0 i 2 E， 4 5 6 7 8 9 

iadaa V,rB [c[|o[F[| V | 
该 指令 将 常数 值 V 与 寄存 器 rB 相 加 。 

使 用 iaddq 指令 重 写 图 4-6 的 Y86-64 sum 函数 。 在 之 前 的 代码 中 ， 我 们 用 寄存 
器 sr8 和 gsr9 来 保存 常数 值 。 现 在 ， 我 们 完全 可 以 避免 使 用 这 些 寄存 器 。 

















人 

# Execution begins at address 0 

0x000 .pos 0 

0x000: 30f40002000000000000 irmovq stack, %rsp # Set up stack pointer 

Ox00a: 803800000000000000 call main # Execute main program. 

Ox013: 00 halt # Terminate program 
# Array of 4 elements 

Ox018 .align 8 

Ox018 array: 

Ox018: 0d0004d0009000000 .quad 0x000d000d000d 

0x020: c000c000c0000000 .quad 0x00c000c000c0 


0x028: 000b000b000b0000 
Ox030: 00a000a000a00000 


.quad 0xOb000b000b00 
.quad Oxa000a000a000 


main: 
irmovd array,%rdi 
irmovgd $4,%rsi 


0x038: 30f71800000000000000 
Ox042: 30f60400000000000000 








Ox04c: 805600000000000000 call sum # sum(array, 4) 
Ox055: 90 ret 

# start in %rdi, count in %rsi 
Ox056 sum: 
Ox056: 30f80800000000000000 irmovq $8,%r8 # Constant 8 
Ox060: 30f90100000000000000 irmovg $1,%r9 # Constant 1 
Ox06a: 6300 Xorq %rax, hrax # sum = 0 
Ox06c: 6266 andq %rsi,%rsi # Set CC 
Ox06e: 708700000000000000 jmp test # Goto test 
OxO77 loop: 
Ox077: 50a70000000000000000 mrmovq (%rdi),%r10 # Get *start 
Ox081: 60a0 addq %r10,%rax # Add to sum 
0x083: 6087 addq %r8,%rdi # start++ 
Ox085: 6196 subq %r9,%rsi # count--. Set CC 
Ox087 test: 
Ox087: 747700000000000000 jne loop # Stop when 0 
Ox090: 90 ret # Return 


# Stack starts here and grows to lower addresses 
.Pos 0x200 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| # long sum(long *start, long count) 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| stack: 








图 4-8 ”YAS 汇编 器 的 输出 。 每 一 行 包含 一 个 十 六 进 制 的 地 址 ， 以 及 字 节 数 在 1 一 10 之 间 的 目标 代码 








SN 练习 题 4.4 根据 下 面 的 C 代码 ， 用 了 86-64 代码 来 实现 一 个 递归 求 和 函数 rsum: 
long rsum(long *start, long count) 
if (count <= 0) 


return 0; 
return *start + rsum(start+1, count-1); 


使 用 与 x86-64 代码 相同 的 参数 传递 和 寄存 器 保存 方法 。 在 一 台 x86-64 机 器 上 编 
译 这 段 C 代码， 然后 再 把 那些 指令 翻译 成 Y86-64 的 指令 ， 这 样 做 可 能 会 很 有 帮助 。 
练习 题 4.5 修改 sum 函数 的 了 86-64 代码 (图 4-6)， 实 现 函 数 absSsum， 它 计算 一 个 
数组 的 绝对 值 的 和 。 在 内 循环 中 使 用 条 件 跳 转 指令 。 
练习 题 4.6 修改 sum 函数 的 Y86-64 代码 (图 4-6)， 实 现 函 数 absSum， 它 计算 一 个 
数组 的 绝对 值 的 和 。 在 内 循环 中 使 用 条 件 传送 指令 。 





4.1.6 一 些 Y86-64 指令 的 详情 


大 多 数 Y86-64 指令 是 以 一 种 直接 明了 的 方式 修改 程序 状态 的 ， 所 以 定义 每 条 指令 想 

要 达到 的 结果 并 不 困难 。 不 过 ， 两 个 特别 的 指令 的 组 合 需要 特别 注意 一 下 。 
pushq 指令 会 把 栈 指 针 减 8， 并且 将 一 个 寄存 器 值 写 人 内 存 中 。 因 此 ， 当 执行 pushq 

srsp 指令 时 ， 处 理 器 的 行为 是 不 确定 的 ， 因 为 要 人 栈 的 寄存 器 会 被 同一 条 指令 修改 。 通 

常 有 两 种 不 同 的 约定 : 1) 压 人 Srsp 的 原始 值 ，2) 压 入 减 去 8 的 srsp 的 值 。 

对 于 Y86-64 处 理 器 来 说 ， 我 们 采用 和 x86-64 一 样 的 做 法 ， 就 像 下 面 这 个 练习 题 确定 

出 的 那样 。 

ES 练习 题 4.7 确定 x86-64 处 理 器 上 指令 pushq srsp 的 行为 。 我 们 可 以 通过 阅读 Intel 
关于 这 条 指令 的 文档 来 了 解 它 们 的 做 法 ， 但 更 简单 的 方法 是 在 实际 的 机 器 上 做 个 实 
验 。C 编译 器 正常 情况 下 是 不 会 产生 这 条 指令 的 ， 所 以 我 们 必须 用 手工 生成 的 汇编 代 
“ 码 来 完成 这 一 任务 。 下 面 是 我 们 写 的 一 个 测试 程序 (网 络 旁 注 ASM:EASM， 描 绘 如 
何 编写 C 代码 和 手写 汇编 代码 结合 的 程序 ) : 


1 .七 eXt 

2 .Elobl pushtest 

3 pushtest: 

4 movgd %rsp, rax Copy stack pointer 
5 pushq %rsp Push stack pointer 
6 popq %rdx Pop it back 

7 subqg %rdx, %rax Return 0 or 8 

8 ret 


在 实验 中 ， 我 们 发 现 函 数 pushtest 总 是 返回 0， 这 表示 在 x86-64 中 pushq %rsp 
指令 的 行为 是 怎样 的 呢 ? 

对 popq srsp 指令 也 有 类 似 的 歧义 。 可 以 将 srsp 置 为 从 内 存 中 读 出 的 值 ， 也 可 以 置 
为 加 了 增 量 后 的 栈 指针 。 同 练习 题 4. 7 一 样 ， 让 我 们 做 个 实验 来 确定 x86-64 机 器 是 怎么 
处 理 这 条 指令 的 ， 然 后 Y86-64 机 器 就 采用 同样 的 方法 。 
练习 题 4.8 下 面 这 个 汇编 函数 让 我 们 确定 x86-64 上 指令 popq srsp 的 行为 : 


1 ‘text 
2 .globl poptest 
3 poptest: 
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4 movdq %rsp, %rdi Save stack pointer 

5 pushq $0Oxabcd Push test value 

6 popq %rsp Pop to stack pointer 

7 movg %rsp, %rax Set popped value as return value 
8 movg %rdi, %rsp Restore stack pointer 

9 ret 


我 们 发 现 函 数 总 是 返回 0xabcd。 这 表示 popq srsp 的 行为 是 怎样 的 ? 还 有 什么 
其 他 Y86-64 指令 也 会 有 相同 的 行为 吗 ? 


| 旁 注 正确 了 解 细节 : x86 模型 间 的 不 一 致 

练习 题 4.7 和 练习 题 4.8 可 以 帮助 我 们 确定 对 于 压 入 和 弹出 栈 指针 指令 的 一 致 惯 
例 。 看 上 去 似乎 没有 理由 会 执行 这 样 两 种 操作 ， 那 么 一 个 很 自然 的 问题 就 是 “为 什么 要 
担心 这 样 一 些 吹 毛 求 疯 的 细节 呢 ?” 

从 下 面 Intel 关于 PUSH 指令 的 文档 [51j] 的 节选 中 ， 可 以 学 到 关于 这 个 一 致 的 重要 
性 的 有 用 的 教训 : 

对 于 IA-32 处 理 器 ， 从 Intel 286 开始 ，PUSH ESP 指令 将 ESP 寄存 器 的 值 压 入 栈 
中 ， 就 好 像 它 存在 于 这 条 指令 被 执行 之 前 。( 对 于 Intel 64 体系 结构 、IA-32 体系 结构 的 
实地 址 模式 和 虚 8086 模式 来 说 也 是 这 样 。) 对 于 Intel8@ 8086 处 理 器 ，PUSH SP 将 SP 
寄存 器 的 新 值 压 入 栈 中 (也 就 是 减 去 2 之 后 的 值 )。(PUSH ESP 指令 。Intel 公司 。50。) 

虽然 这 个 说 明 的 具体 细节 可 能 难以 理解 ， 但 是 我 们 可 以 看 到 这 条 注释 说 明 的 是 当 执 
行 压 入 栈 指针 寄存 器 指令 时 ， 不 同型 号 的 x86 处 理 器 会 做 不 同 的 事情 。 有 些 会 压 入 原始 
的 值 ， 而 光 些 会 压 入 减 去 后 的 值 。( 有 趣 的 是 ， 对 于 弹出 栈 指针 寄存 器 没有 类 似 的 歧 
义 。) 这 种 不 一 致 有 两 个 缺点 : 

@ 它 降低 了 代码 的 可 移植 性 。 取 决 于 处 理 器 模型 ， 程序 可 能 会 有 不 同 的 行为 。 虽 然 

这 样 特殊 的 指令 并 不 常见 ， 但 是 即使 是 潜在 的 不 兼容 也 可 能 带 来 严重 的 后 果 。 
@ 它 增加 了 文档 的 复杂 性 。 正 如 在 这 里 我 们 看 到 的 那样 ， 需 要 一 个 特别 的 说 明 来 澄 
清 这 些 不 同 之 处 。 即 使 没有 这 样 的 特殊 情况 ，x86 文档 就 已 经 够 复杂 的 了 。 

因此 我 们 的 结论 是 ， 从 长 远 来 看 ， 提 前 了 解 细节 ， 力 争 保持 完全 的 一 致 能 够 节省 很 

多 的 麻烦 。 


4.2 逻辑 设计 和 硬件 控制 语言 HCL 

在 硬件 设计 中 ， 用 电子 电路 来 计算 对 位 进行 运算 的 函数 ， 以 及 在 各 种 存储 器 单元 中 存 
储 位 。 大 多 数 现代 电路 技术 都 是 用 信号 线 上 的 高 电压 或 低 电压 来 表示 不 同 的 位 值 。 在 当前 
的 技术 中 ， 逻 辑 1 是 用 1. 0 伏特 左右 的 高 电压 表示 的 ， 而 逻辑 0 是 用 0. 0 伏特 左右 的 低 电 
压 表示 的 。 要 实现 一 个 数字 系统 需要 三 个 主要 的 组 成 部 分 : 计算 对 位 进行 操作 的 函数 的 组 
合 逻 辑 、 存 储 位 的 存储 器 单元 ， 以 及 控制 存储 器 单元 更 新 的 时 钟 信 号 。 

本 节 简 要 描述 这 些 不 同 的 组 成 部 分 。 我 们 还 将 介绍 HCL (Hardware Control Lan- 
guage， 硬 件 控 制 语 言 );， 用 这 种 语言 来 描述 不 同 处 理 器 设计 的 控制 逻辑 。 在 此 我 们 只 是 简 
略 地 描述 HCL，HCL 完整 的 参考 请 见 网 络 旁 注 ARCH :HCL。 


国 末 现代 速 辑 设计 | 
曾经 ， 硬 件 设 计 者 通过 描绘 示意 性 的 逻辑 电路 图 来 进行 电路 设计 (最 早 是 用 纸 和 笔 ， 
后 来 是 用 计算 机 图 形 终 端 )。 现 在 ， 大 多 数 设计 都 是 用 硬件 描述 语言 (Hardware Description 
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Language，HDL) 来 表达 的 。HDL 是 一 种 文本 表示 ， 看 上 去 和 编程 语言 类 似 ， 但 是 它 
是 用 来 描述 硬件 结构 而 不 是 程序 行为 的 。 最 常用 的 语言 是 Verilog， 它 的 语法 类 似 于 Ci 
另 一 种 是 VHDL， 它 的 语法 类 似 于 编程 语言 Ada。 这 些 语言 本 来 都 是 用 来 表示 数字 电路 
的 模拟 模型 的 。20 世纪 80 年 代 中 期 研究 者 开发 出 了 逻辑 合成 (logic synthesis) 程 序 ， 
它 可 以 根据 HDL 的 描述 生成 有 效 的 电路 设计 。 现 在 有 许多 商用 的 合成 程序 ， 已 经 成 为 
产生 数字 电路 的 主要 技术 。 从 手工 设计 电路 到 合成 生成 的 转变 就 好 像 从 写 汇 编程 序 到 写 
高 级 语言 程序 ， 再 用 编译 器 来 产生 机 器 代码 的 转变 一 样 。 

我 们 的 HCL 语言 只 表达 硬件 设计 的 控制 部 分 ， 只 有 有 限 的 操作 集合 ， 也 没有 模块 化 。 
不 过 ， 正 如 我 们 会 看 到 的 那样 ， 控 制 逻 辑 是 设计 微 处 理 器 中 最 难 的 部 分 。 我 们 已 经 开发 出 
了 将 HCL 直接 翻译 成 Verilog 的 工具 ， 将 这 个 代码 与 基本 硬件 单元 的 Verilog 代码 结合 起 
来 ， 就 能 产生 HDL 描述 ， 根 据 这 个 HDL 描述 就 可 以 合成 实际 能 够 工作 的 微 处 理 器 。 通 过 
小 心地 分 离 、 设 计 和 测试 控制 逻辑 ， 再 加 上 适当 的 努力 ， 我 们 就 能 创建 出 一 个 可 以 工作 的 
微 处 理 器 。 网 络 旁 注 ARCH:VLOG 描述 了 如 何 能 产生 Y86-64 处 理 器 的 Verilog 版 本 。 


4.2.1 逻辑 门 

逻辑 门 是 数字 电路 的 基本 计算 单元 。 它 们 产生 的 输出 ， 等 于 它们 输入 位 值 的 某 个 布尔 
函数 。 图 4-9 是 布尔 函数 AND、OR 和 NOT 的 标准 符号 ，C 语言 中 运算 符 (2. 1.8 节 ) 的 
逻辑 门下 面 是 对 应 的 HCL 表达 式 : AND 用 &&& 表示 ，OR 用 || 表示 ， 而 NOT 用 ! 表 
示 。 我 们 用 这 些 符号 而 不 用 C 语言 中 的 位 运算 符 &、| 和 一 ， 这 是 因为 逻辑 门 只 对 单个 
位 的 数 进行 操作 ， 而 不 是 整个 字 。 虽 然 图 中 只 说 明了 AND 和 OR 门 的 两 个 输入 的 版 本 ， 
但 是 常见 的 是 它们 作为 n 路 操作 ，n 二 2。 不 过 ， 在 HCL 中 我 们 还 是 把 它们 写作 二 元 运算 
符 ， 所 以 ， 三 个 输入 的 AND 门 ， 输入 为 a、 And T 


OR NO 
b 和 c， 用 HCL 表示 就 是 aggbg&c。 ?了 ou 了 人 > Ee” 
逻辑 门 总 是 活动 的 (active) 。 一 旦 一 个 门 ? 


i 上 A 出 = 山王 pb 1! 
的 输入 变化 了 ， 在 很 短 的 时 间 内 ， 输 出 就 会 。 町 出 -ss 输出 =a11 输出 -1a 
相应 地 变化 。 图 4-9 逻辑 门类 型 。 每 个 门 产生 的 输出 
等 于 它 输 入 的 某 个 布尔 函数 


4.2.2 组 合 电 路 和 HCL 布尔 表达 式 


将 很 多 的 逻辑 门 组 合成 一 个 网 ， 就 能 构建 计算 块 (computational block) ， 称 为 组 合 电 
路 (combinational circuits) 。 如 何 构 建 这 些 网 有 几 个 限制 : 
e 每 个 逻辑 门 的 输入 必须 连接 到 下 述 选项 之 一 : 1) 一 个 系统 输入 ( 称 为 主 输入 ) ，2) 某 
个 存储 器 单元 的 输出 ，3) 某 个 逻辑 门 的 输出 。 

e 两 个 或 多 个 逻辑 门 的 输出 不 能 连接 在 一 起 。 否 则 它们 可 能 会 使 线 上 的 信号 矛盾 ， 可 
能 会 导致 一 个 不 合法 的 电压 或 电路 故障 。 

e 这 个 网 必须 是 无 环 的 。 也 就 是 在 网 中 不 能 有 路 径 经 过 一 系列 的 门 而 形成 一 个 回路 ， 
这 样 的 回路 会 导致 该 网 络 计 算 的 函数 有 歧义 。 

图 4-10 是 一 个 我 们 觉得 非常 有 用 的 简单 组 合 电 路 的 例子 。 它 有 两 个 输入 a 和 b， 有 唯 
一 的 输出 eq， 当 a 和 b 都 是 1( 从 上 面 的 AND 门 可 以 看 出 ) 或 都 是 0( 从 下 面 的 AND 门 可 
以 看 出 ) 时 ， 输 出 为 1。 用 HCL 来 写 这 个 网 的 函数 就 是 : 

bool eq = (a && bj || (la && !b); 








这 段 代码 简单 地 定义 了 位 级 (数据 类 型 bool 表明 了 这 一 点 ) 信 号 eq， 它 是 输入 a 和 jb 
的 函数 。 从 这 个 例子 可 以 看 出 HCL 使 用 了 C 语言 风格 的 语法 , “= :将 一 个 信号 名 与 一 个 
表达 式 联系 起 来 。 不 过 同 C 不 一 样 ， 我 们 不 把 它 看 成 执行 了 一 次 计算 并 将 结果 放 人 内 存 中 
某 个 位 置 。 相 反 ， 它 只 是 给 表达 式 一 个 名 字 。 

区 守 练习 题 4.9 写 出 信号 xor 的 HCL 表达 式 ，xor 就 是 异 或 ， 输 入 为 a 和 b。 信 号 xor 

和 和 上面 定义 的 eq 有 什么 关系 ? 

图 4-11 给 出 了 另 一 个 简单 但 很 有 用 的 组 合 电 路 ， 称 为 多 路 复 用 器 (multiplexor， 通 常 
称 为 “MUX”)。 多 路 复 用 器 根据 输入 控制 信号 的 值 ， 从 一 组 不 同 的 数据 信号 中 选 出 一 个 。 
在 这 个 单个 位 的 多 路 复 用 器 中 ， 两 个 数据 信号 是 输入 位 a 和 bb， 控制 信号 是 输入 位 s。 当 s 
为 1 时， 输出 等 于 a; 而 当 s 为 0 时 ， 输 出 等 于 b。 在 这 个 电路 中 ， 我 们 可 以 看 出 两 个 
AND 门 决 定 了 是 否 将 它们 相对 应 的 数据 输入 传送 到 OR 门 。 当 s 为 0 时 ， 上 面 的 AND 门 
将 传送 信号 b( 因 为 这 个 门 的 另 一 个 输入 是 !s)， 而 当 s 为 1 时 ， 下 面 的 AND 门将 传送 信 
号 a。 接 下 来 ， 我 们 来 写 输出 信号 的 HCL 表达 式 ， 使 用 的 就 是 组 合 逻辑 中 相同 的 操作 : 

bool out = (sg && a) || (!s && b); 





图 4-10 检测 位 相等 的 组 合 电路 。 当 输入 都 为 0 ”图 4-11 单个 位 的 多 路 复 用 器 电路 。 如 果 控 制 信号 
或 都 为 1 时， 输出 等 于 1 s 为 1， 则 输出 等 于 输入 ai 当 s 为 0 
时 ， 输 出 等 于 输入 b 
HCL 表达 式 很 清楚 地 表明 了 组 合 逻辑 电路 和 C 语言 中 逻辑 表达 式 的 对 应 之 处 。 它 们 
都 是 用 布尔 操作 来 对 输入 进行 计算 的 函数 。 值 得 注意 的 是 ， 这 两 种 表达 计算 的 方法 之 间 有 
以 下 区 别 : 
e 因为 组 合 电 路 是 由 一 系列 的 逻辑 门 组 成 ， 它 的 属性 是 输出 会 持续 地 响应 输入 的 变 
化 。 如 果 电 路 的 输入 变化 了 ， 在 一 定 的 延迟 之 后 ， 输 出 也 会 相应 地 变化 。 相 比 之 
下 ，C 表达 式 只 会 在 程序 执行 过 程 中 被 遇 到 时 才 进 行 求 值 。 
ecC 的 逻辑 表达 式 允 许 参数 是 任意 整数 ，0 表示 FALSE， 其 他 任何 值 都 表示 TRUE， 
而 逻辑 门 只 对 位 值 0 和 1 进行 操作 。 
e C 的 逻辑 表达 式 有 个 属性 就 是 它们 可 能 只 被 部 分 求 值 。 如 果 一 个 AND 或 OR 操作 
的 结果 只 用 对 第 一 个 参数 求 值 就 能 确定 ， 那 么 就 不 会 对 第 二 个 参数 求 值 了 。 例 如 下 
面 的 C 表达 式 ， 
(a && !a) && func(b,c) 


这 里 函数 func 是 不 会 被 调用 的 ， 因 为 表达 式 (a &g !a) 求 值 为 0。 而 组 合 逻 辑 没有 
部 分 求 值 这 条 规则 ， 逻 辑 门 只 是 简单 地 响应 输入 的 变化 。 
4.2.3 字 级 的 组 合 电路 和 HCL 整数 表达 式 


通过 将 逻辑 门 组 合成 大 的 网 ， 可 以 构造 出 能 计算 更 加 复杂 函数 的 组 合 电路 。 通 常 ， 我 
们 设计 能 对 数据 字 (word) 进 行 操 作 的 电路 。 有 一 些 位 级 信号 ， 代 表 一 个 整数 或 一 些 控制 模 


第 4 童 处 理 器 体系 结 攀 259 





式 。 例如， 我 们 的 处 理 器 设计 将 包含 有 很 多 字 ， 字 的 大 小 的 范围 为 4 位 到 64 位 ， 代 表 整 
数 、 地 址 、 指 令 代码 和 寄存 器 标识 符 。 

执行 字 级 计算 的 组 合 电路 根据 输入 字 的 各 个 位 ， 用 逻辑 门 来 计算 输出 字 的 各 个 位 。 例 如 
图 4-12 中 的 一 个 组 合 电路 ， 它 测试 两 个 64 位 字 A 和 B 是 否 相 等 。 也 就 是 ， 当 且 仅 当 A 的 每 
一 位 都 和 B 的 相应 位 相等 时 ， 输 出 才 为 1。 这 个 电路 是 用 64 个 图 4-10 中 所 示 的 单个 位 相等 
电路 实现 的 。 这 些 单个 位 电路 的 输出 用 一 个 AND 门 连 起 来 ， 形 成 了 这 个 电路 的 输出 。 









eqes 


Eq 一 - 


a ) 位 级 实现 b ) 字 级 抽象 
图 4-12 字 级 相等 测试 电路 。 当 字 A 的 每 一 位 与 字 B 中 相应 的 位 均 相 等 时 ， 
输出 等 于 1。 字 级 相等 是 HCL 中 的 一 个 操作 
在 HCL 中 ， 我 们 将 所 有 字 级 的 信号 都 声明 为 int， 不 指定 字 的 大 小 。 这 样 做 是 为 了 
简单 。 在 全 功能 的 硬件 描述 语言 中 ， 每 个 字 都 可 以 声明 为 有 特定 的 位 数 。HCL 允许 比较 
字 是 否 相 等 ， 因 此 图 4-12 所 示 的 电路 的 函数 可 以 在 字 级 上 表达 成 
bool Eq = (A == B) ; 


这 里 参数 A 和 B 是 int 型 的 。 注 意 我 们 使 用 和 C 语言 中 一 样 的 语法 习惯 , “= ”表示 赋 
值 ， 而 “== 是 相等 运算 符 。 

.如 图 4-12 中 右边 所 示 ， 在 画 字 级 电路 的 时 候 ， 我 们 用 中 等 粗 度 的 线 来 表示 携带 字 的 
每 个 位 的 线路 ， 而 用 虚线 来 表示 布尔 信号 结果 。 
ES 练习 题 4. 10 ”假设 你 用 练习 题 4.9 中 的 异 或 电路 而 不 是 位 级 的 相等 电路 来 实现 一 个 字 级 的 

相等 电路 。 设 计 一 个 64 位 字 的 相等 电路 需要 64 个 字 级 的 异 或 电路 ， 另 外 还 要 两 个 座 辑 门 。 

图 4-13 是 字 级 的 多 路 复 用 器 电路 。 这 个 电路 根据 控制 输入 位 s， 产生 一 个 64 位 的 字 
out， 等 于 两 个 输入 字 A 或 者 B 中 的 一 个 。 这 个 电路 由 64 个 相同 的 子 电路 组 成 ， 每 个 子 电 
路 的 结构 都 类 似 于 图 4-11 中 的 位 级 多 路 复 用 器 。 不 过 这 个 字 级 的 电路 并 没有 简单 地 复制 
64 次 位 级 多 路 复 用 器 ， 它 只 产生 一 次 !s， 然 后 在 每 个 位 的 地 方 都 重复 使 用 它 ， 从 而 减少 
反 相 器 或 非 门 (inverters) 的 数量 。 

处 理 器 中 会 用 到 很 多 种 多 路 复 用 器 ， 使 得 我 们 能 根据 某 些 控制 条 件 ， 从 许多 源 中 选 出 
一 个 字 。 在 HCL 中 ， 多 路 复 用 函数 是 用 情况 表达 式 (case expression) 来 描述 的 。 情 况 表 达 
式 的 通用 格式 如 下 : 

[ 


Selectl : expri; 
select» : expr;; 





select : expry; 


] 
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这 个 表达 式 包含 一 系列 的 情况 ， 每 种 情况 i 都 有 一 个 布尔 表达 式 select; 和 一 个 整数 表 
达 式 expr;， 前 者 表明 什么 时 候 该 选择 这 种 情况 ， 后 者 指明 的 是 得 到 的 值 。 





irit ‘Out s 
SS 总 A 
亚 训 已 
pe Se J 
bk 
= 
a ) 位 级 实现 b ) 字 级 抽象 


图 4-13 字 级 多 路 复 用 器 电路 。 当 控制 信和 号 s 为 1 时， 输出 会 等 于 输入 字 A， 
否则 等 于 B。HCL 中 用 情况 (case) 表 达 式 来 描述 多 路 复 用 器 


同 C 的 switch 语句 不 同 ,我 们 不 要 求 不 同 的 选择 表达 式 之 间 互 斥 。 从 逻辑 上 讲 ， 这 
些 选择 表达 式 是 顺序 求 值 的 ， 且 第 一 个 求 值 为 1 的 情况 会 被 选中 。 例 如 ， 图 4-13 中 的 字 
级 多 路 复 用 器 用 HCL 来 描述 就 是 : 


word Out = [ 


s: A; 
Ls BB 


J] 六 

在 这 段 代 码 中 ， 第 二 个 选择 表达 式 就 是 1， 表 明 如 果 前 面 没有 情况 被 选中 ， 那 就 选择 这 
种 情况 。 这 是 HCL 中 一 种 指定 默认 情况 的 方法 。 几 乎 所 有 的 情况 表达 式 都 是 以 此 结尾 的 。 

允许 不 互 斥 的 选择 表达 式 使 得 HCL 代码 的 可 读 性 更 好 。 实 际 的 硬件 多 路 复 用 器 的 信号 
必须 互 斥 ， 它 们 要 控制 哪个 输入 字 应 该 被 传送 到 输出 ， 就 像 图 4-13 中 的 信号 s 和 !s。 要 将 一 
个 HCL 情况 表达 式 翻 译 成 硬件 ， 逻 辑 合 成 程序 需要 分 析 选 择 表 达 式 集合 ， 并 解决 任何 可 能 
的 冲突 ， 确 保 只 有 第 一 个 满足 的 情况 才 会 被 选中 。 sl 

选择 表达 式 可 以 是 任意 的 布尔 表达 式 ， 可 以 有 任意 
多 的 情况 。 这 就 使 得 情况 表达 式 能 描述 带 复杂 选择 标准 
的 、 多 种 输入 信号 的 块 。 例 如 ， 考 虑 图 4-14 中 所 示 的 四 
路 复 用 器 的 图 。 这 个 电路 根据 控制 信号 si1 和 s0， 从 4 





四 人 NOD 


个 输入 字 A、B、C 和 D 中 选择 一 个 ， 将 控制 信号 看 作 一 


四 路 复 用 器 。 控 制 信 号 sl 和 


图 4-14 
个 两 位 的 二 进 制 数 。 我 们 可 以 用 HCL 来 表示 这 个 电路 ， s0 的 不 同 组 合 决定 了 哪个 数 
用 布尔 表达 式 描述 控制 位 模式 的 不 同 组 合 : 据 输 入 会 被 传送 到 输出 


word Out4 = [ 


Isi && !sO : Ai # 00 
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Isi : B; # 01 
1s0 i Cs ## 0 
1 : D; # 11 


]; 
右边 的 注释 (任何 以 # 开 头 到 行 尾 结束 的 文字 都 是 注释 ) 表 明了 sl 和 s0 的 什么 组 合 会 
导致 该 种 情况 会 被 选中 。 可 以 看 到 选择 表达 式 有 时 可 以 简化 ， 因 为 只 有 第 一 个 匹配 的 情况 
才 会 被 选中 。 例 如 ， 第 二 个 表达 式 可 以 写成 !s1， 而 不 用 写 得 更 完整 1s1 && s0， 因 为 另 一 
种 可 能 sl 等 于 0 已 经 出 现在 了 第 一 个 选择 表达 式 中 了 。 类 似 地 ， 第 三 个 表达 式 可 以 写作 
1!s0， 而 第 四 个 可 以 简单 地 写成 1。 

来 看 最 后 一 个 例子 ， 假 设 我 们 想 设计 一 个 逻辑 电路 来 找 一 组 字 A、B 和 Cc 中 的 最 小 值 ， 


如 下 图 所 示 : 
人 
也 MIN3 & Min3 
A : 


用 HCL 来 表达 就 是 : 
word Min3 = [ 


A<=Bé&& A<=C: A; 
B <=A&&B <=C:B; 
1 :Ci 


J 


练习 题 4. 11 计算 三 个 字 中 最 小 值 的 HCL 代码 包含 了 4 个 形 如 X<=Y 的 比较 表达 式 。 

重 写 代码 计算 同样 的 结果 ， 但 只 使 用 三 个 比较 。 

况 I 练习 题 4. 12 写 一 个 电路 的 HCL 代码 ， 对 于 输入 字 A、B 和 c， 选 择 中 间 值 。 也 就 

是 ， 输 出 等 于 三 个 输入 中 居于 最 小 值 和 最 大 值 之 间 的 那个 字 。 

组 合 逻 辑 电 路 可 以 设计 成 在 字 级 数据 上 执行 许多 不 同类 型 的 操作 。 具 体 的 设计 已 经 超 
出 了 我 们 讨论 的 范围 。 算 术 / 逻 辑 单元 (ALU) 是 一 种 很 重要 的 组 合 电路 ， 图 4-15 是 它 的 一 
个 抽象 的 图 示 。 这 个 电路 有 三 个 输入 : 标号 为 A 和 B 的 两 个 数据 输入 ， 以 及 一 个 控制 输 
和 人。 根据 控制 输入 的 设置 ， 电 路 会 对 数据 输入 执行 不 同 的 算术 或 逻辑 操作 。 可 以 看 到 ， 这 
个 ALU 中 画 的 四 个 操作 对 应 于 Y86-64 指令 集 支持 的 四 种 不 同 的 整数 操作 ， 而 控制 值 和 这 
些 操作 的 功能 码 相对 应 (图 4-3) 。 我 们 还 注意 到 减法 的 操作 数 顺 序 ， 是 输入 B 减 去 输入 A。 
之 所 以 这 样 做 ， 是 为 了 使 这 个 顺序 与 subq 指令 的 参数 顺序 一 致 。 


0 受 3 
六 A ¥ A A ¥ A 
“I, A A A 
L 六 在 YY L 光一 区 L XE&Y L XY 
U U 如 U 
B 又 B X B 又 B 


图 4-15 算术 /逻辑 单元 (ALU)。 根 据 函 数 输入 的 设置 ， 该 电路 会 执行 四 种 算术 和 逻辑 运算 中 的 一 种 


4.2.4 集合 关系 


在 处 理 器 设计 中 ， 很 多 时 候 都 需要 将 一 个 信和 号 与 许多 可 能 匹配 的 信号 做 比较 ， 以 此 来 
检测 正在 处 理 的 某 个 指令 代码 是 否 属于 某 一 类 指令 代码 。 下 面 来 看 一 个 简单 的 例子 ， 假 设 
想 从 一 个 两 位 信号 code 中 选择 高 位 和 低位 来 为 图 4-14 中 的 四 路 复 用 器 产生 信号 si1 和 s0， 
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如 下 图 所 示 : 





在 这 个 电路 中 ， 两 位 的 信号 code 就 可 以 用 来 控制 对 4 个 数据 字 A、B、C 和 D 做 选择 。 
根据 可 能 的 code 值 ， 可 以 用 相等 测试 来 表示 信号 sl 和 s0 的 产生 


bool si = code 
bool s0 = code 


还 有 一 种 更 简洁 的 方式 来 表示 这 样 的 属性 当 code 在 集合 {2，3} 中 时 sl 为 1， 而 
code 在 集合 {1，3}) 中 时 s0 为 1: 


code in { 2, 3 }; 
code in { 1, 3 }; 


2 || code == 3; 
1 || code == 3; 


bool sl 
bool SO 


判断 集合 关系 的 通用 格式 是 : 
iexpr in (iexpri,ierprs,** ,ierpre} 


这 里 被 测试 的 值 iexpr 和 待 匹 配 的 值 iezxpri ~ierprs 都 是 整数 表达 式 。 


4.2.5 存储 器 和 时 钟 


组 合 电路 从 本 质 上 讲 ， 不 存储 任何 信息 。 相 反 ， 它 们 只 是 简单 地 响应 输入 信和 号， 产生 等 
于 输入 的 某 个 图 数 的 输出 。 为 了 产生 时 序 电 路 (sequential circuit) ， 也 就 是 有 状态 并 且 在 这 个 
状态 上 进行 计算 的 系统 ， 我 们 必须 引入 按 位 存储 信息 的 设备 。 存 储 设备 都 是 由 同一 个 时 钟 控制 
的 ， 时 钟 是 一 个 周期 性 信和 号， 决定 什么 时 候 要 把 新 值 加 载 到 设备 中 。 考 虑 两 类 存储 器 设备 ， 

e 时 钟 寄存 器 (简称 寄存 器 ) 存 储 单个 位 或 字 。 时 钟 信和 号 控制 寄存 器 加 载 输入 值 。 

e@ 随机 访问 存储 器 (简称 内 存 ) 存 储 多 个 字 ， 用 地 址 来 选择 该 读 或 该 写 哪个 字 。 随 机 访 

问 存储 器 的 例子 包括 : 1) 处理 器 的 虚拟 内 存 系统 ， 硬 件 和 操作 系统 软件 结合 起 来 使 

处 理 器 可 以 在 一 个 很 大 的 地 址 空间 内 访问 任意 的 字 ; 2) 寄 存 器 文件 ， 在 此 ， 寄 存 器 

标识 符 作 为 地 址 。 在 IA32 或 Y86-64 处 理 器 中 ， 寄 存 器 文件 有 15 个 程序 寄存 器 (3 

rax~$r14)。 

正如 我 们 看 到 的 那样 ， 在 说 到 硬件 和 机 器 级 编程 时 ， “寄存 器 ”这 个 词 是 两 个 有 细微 
差别 的 事情 。 在 硬件 中 ， 寄 存 器 直接 将 它 的 输入 和 输出 线 连接 到 电路 的 其 他 部 分 。 在 机 器 
级 编程 中 ， 寄 存 器 代表 的 是 CPU 中 为 数 不 多 的 可 寻 址 的 字 ， 这 里 的 地 址 是 寄存 器 ID。 这 
些 字 通常 都 存在 寄存 器 文件 中 ， 虽 然 我 们 会 看 到 硬件 有 时 可 以 直接 将 一 个 字 从 一 个 指令 伟 
送 到 另 一 个 指令 ， 以 避免 先 写 寄存 器 文件 再 读 出 来 的 延迟 。 需 要 避免 歧义 时 ， 我 们 会 分 别 
称呼 这 两 类 寄存 器 为 “硬件 寄存 器 ”和 “程序 寄存 器 ”。 

图 4-16 更 详细 地 说 明了 一 个 硬件 寄存 器 以 及 它 是 如 何 工 作 的 。 大 多 数 时 候 ， 寄 存 器 
都 保持 在 稳定 状态 (用 x 表示 )， 产 生 的 输出 等 于 它 的 当前 状态 。 信 号 沿 着 寄存 器 前 面 的 组 
合 逻 辑 传播 ， 这 时 ， 产 生 了 一 个 新 的 寄存 器 输入 (用 yy 表示)， 但 只 要 时 钟 是 低 电位 的 ， 寄 
存 器 的 输出 就 仍然 保持 不 变 。 当 时 钟 变 成 高 电位 的 时 候 ， 输 入 信号 就 加 载 到 寄存 器 中 ,成 
为 下 一 个 状态 y， 直 到 下 一 个 时 钟 上 升 沿 ， 这 个 状态 就 一 直 是 寄存 器 的 新 输出 。 关 键 是 寄 
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存 器 是 作为 电路 不 同 部 分 中 的 组 合 逻 辑 之 间 的 屏障 。 每 当 每 个 时 钟 到 达 上 升 沿 时 ， 值 才 会 
从 寄存 器 的 输入 传送 到 输出 。 我 们 的 Y86-64 处 理 器 会 用 时 钟 寄存 器 保存 程序 计数 器 
(PC)、 条 件 代码 (CC) 和 程序 状态 (Stat)。 


状态 =x 状态 =y 


输出 =y 
> y 


图 4-16 寄存 器 操作 。 寄 存 器 输出 会 一 直 保持 在 当前 寄存 器 状态 上 ， 直 到 时 钟 信号 
上 升 。 当 时 钟 上 升 时 ， 寄 存 器 输入 上 的 值 会 成 为 新 的 寄存 器 状态 


下 面 的 图 展示 了 一 个 典型 的 寄存 器 文件 : 





读 端 口 





时 钟 


寄存 器 文件 有 两 个 读 端 口 (A 和 B)， 还 有 一 个 写 端 口 (W)。 这 样 一 个 多 端口 随机 访问 
存储 器 允许 同时 进行 多 个 读 和 写 操作 。 图 中 所 示 的 寄存 器 文件 中 ， 电 路 可 以 读 两 个 程序 寄 
存 器 的 值 ， 同 时 更 新 第 三 个 寄存 器 的 状态 。 每 个 端口 都 有 一 个 地 址 输入 ， 表 明 该 选择 哪个 
程序 寄存 器 ， 另 外 还 有 一 个 数据 输出 或 对 应 该 程序 寄存 器 的 输入 值 。 地 址 是 用 图 4-4 中 编 
码 表 示 的 寄存 器 标识 符 。 两 个 读 端 口 有 地 址 输入 srcA 和 srcB(“source A” 和 “source B” 
的 缩写 ) 和 数据 输出 valA 和 valB(“value A” 和 “value B” 的 缩写 ) 。 写 端口 有 地 址 输入 
dstWC “destination W” 的 缩写 ) ， 以 及 数据 输入 valw(“value W” 的 缩写 ) 。 

虽然 寄存 器 文件 不 是 组 合 电路 ， 因 为 它 有 内 部 存储 。 不 过 ， 在 我 们 的 实现 中 ， 从 寄存 
器 文件 读数 据 就 好 像 它 是 一 个 以 地 址 为 输入 、 数 据 为 输出 的 一 个 组 合 逻 辑 块 。 当 srcR 或 
srcB 被 设 成 某 个 寄存 器 ID 时 ， 在 一 段 延迟 之 后 ， 存 储 在 相应 程序 寄存 器 的 值 就 会 出 现在 
valA 或 valB 上 。 例 如， 将 src&R 设 为 3， 就 会 读 出 程序 寄存 器 srbx 的 值 ， 然 后 这 个 值 就 
会 出 现在 输出 valA 上 。 

向 寄存 器 文件 写 人 字 是 由 时 钟 信号 控制 的 ， 控 制 方式 类 似 于 将 值 加 载 到 时 钟 寄存 器 。 每 
次 时 钟 上 升 时 ， 输 入 valw 上 的 值 会 被 写 人 输入 astW 上 的 寄存 器 ID 指示 的 程序 寄存 器 。 当 
dstW 设 为 特殊 的 ID 值 0xF 时 ， 不 会 写 任何 程序 寄存 器 。 由 于 寄存 器 文件 既 可 以 读 也 可 以 写 ， 
一 个 很 自然 的 问题 就 是 “如 果 我 们 试图 同时 读 和 写 同 一 个 寄存 器 会 发 生 什么 ?” 管 案 简单 明了 : 
如 果 更 新 一 个 寄存 器 ， 同 时 在 读 端口 上 用 同一 个 寄存 器 ID， 我 们 会 看 到 一 个 从 旧 值 到 新 值 的 变 
化 。 当 我 们 把 这 个 寄存 器 文件 加 入 到 处 理 器 设计 中 ， 我 们 保证 会 考虑 到 这 个 属性 的 。 

处 理 器 有 一 个 随机 访问 存储 器 来 存储 程序 数据 ， 如 下 图 所 示 : 

数据 输出 





地 址 数据 输入 











这 个 内 存 有 一 个 地 址 输入 ， 一 个 写 的 数据 输入 ， 以 及 一 个 读 的 数据 输出 。 同 寄存 器 文件 
一 样 ， 从 内 存 中 读 的 操作 方式 类 似 于 组 合 罗 辑 : 如 果 我 们 在 输入 address 上 提供 一 个 地 址 ， 
并 将 write 控制 信号 设置 为 0， 那么 在 经 过 一 些 延 迟 之 后 ， 存 储 在 那个 地 址 上 的 值 会 出 现在 
输出 data 上 。 如 果 地 址 超出 了 范围 ，error 信号 会 设置 为 1， 否则 就 设置 为 0。 写 内 存 是 由 
时 钟 控制 的 : 我 们 将 address 设置 为 期 望 的 地 址 ， 将 data in 设置 为 期 望 的 值 ， 而 write 设 
置 为 1。 然后 当 我 们 控制 时 钟 时 ， 只 要 地 址 是 合法 的 ， 就 会 更 新 内 存 中 指定 的 位 置 。 对 于 读 
操作 来 说 ， 如 果 地 址 是 不 合法 的 ，error 信和 号 会 被 设置 为 1。 这 个 信号 是 由 组 合 逻 辑 产生 的 ， 
因为 所 需要 的 边界 检查 纯粹 就 是 地 址 输入 的 函数 ， 不 涉及 保存 任何 状态 。 


| 旁 注 | 现实 的 存储 器 设计 
真实 微 处 理 器 中 的 存储 器 系统 比 我 们 在 设计 中 假想 的 这 个 简单 的 存储 器 要 复杂 得 
多 。 它 是 由 几 种 形式 的 硬件 存储 器 组 成 的 ， 包 括 几 种 随机 访问 存储 器 和 磁盘 ， 以 及 管理 
这 些 设备 的 各 种 硬件 和 软件 机 制 。 存 储 器 系统 的 设计 和 特点 在 第 6 章 中 描述 。 
不 过 ， 我 们 简单 的 存储 器 设计 可 以 用 于 较 小 的 系统 ， 它 提供 了 更 复杂 系统 的 处 理 器 
和 存储 器 之 间接 口 的 抽象 。 


我 们 的 处 理 器 还 包括 另外 一 个 只 读 存储 器 ， 用 来 读 指令 。 在 大 多 数 实际 系统 中 ， 这 两 个 
存储 器 被 合并 为 一 个 具有 双 端 口 的 存储 器 : 一 个 用 来 读 指令 ， 另 一 个 用 来 读 或 者 写 数据 。 


4.3 Y86-64 的 顺序 实现 


现在 已 经 有 了 实现 Y86-64 处 理 器 所 需要 的 部 件 。 首 先 ， 我 们 描述 一 个 称 为 SEQ(“se- 
quential” 顺 序 的 ) 的 处 理 器 。 每 个 时 钟 周期 上 ，SEQ 执行 处 理 一 条 完整 指令 所 需 的 所 有 步 
骤 。 不 过 ， 这 需要 一 个 很 长 的 时 钟 周期 时 间 ， 因 此 时 钟 周期 频率 会 低 到 不 可 接受 。 我 们 开 
发 SEQ 的 目标 就 是 提供 实现 最 终 目的 的 第 一 步 ， 我 们 的 最 终 目 的 是 实现 一 个 高 效 的 、 流 
水 线 化 的 处 理 器 。 


4.3.1 将 处 理 组 织 成 阶段 


通常 ， 处 理 一 条 指令 包括 很 多 操作 。 将 它们 组 织 成 某 个 特殊 的 阶段 序列 ， 即 使 指令 的 
动作 差异 很 大 ， 但 所 有 的 指令 都 遵循 统一 的 序列 。 每 一 步 的 具体 处 理 取决 于 正在 执行 的 指 
令 。 创 建 这 样 一 个 框架 ， 我 们 就 能 够 设计 一 个 充分 利用 硬件 的 处 理 器 。 下 面 是 关于 各 个 阶 
段 以 及 各 阶段 内 执行 操作 的 简略 描述 : 

e 取 指 (fetch): 取 指 阶段 从 内 存 读 取 指 令 字 节 ， 地 址 为 程序 计数 器 (PC) 的 值 。 从 指 

令 中 抽取 出 指令 指示 符 字 节 的 两 个 四 位 部 分 ， 称 为 icode( 指 令 代码 ) 和 ifun( 指 令 
功能 )。 它 可 能 取出 一 个 寄存 器 指示 符 字 节 ， 指 明 一 个 或 两 个 寄存 器 操作 数 指示 符 
rA 和 rB。 它 还 可 能 取出 一 个 四 字 节 常数 字 valCc。 它 按 顺 序 方式 计算 当前 指令 的 下 
一 条 指令 的 地 址 valP。 也 就 是 说 ，valP 等 于 PC 的 值 加 上 已 取出 指令 的 长 度 。 

@ 译 码 (decode) : 译 码 阶段 从 寄存 器 文件 读 人 最 多 两 个 操作 数 ， 得 到 值 valA 和 /或 valB。 

通常 ， 它 读 人 指令 rA 和 rB 字段 指明 的 寄存 器 ， 不 过 有 些 指 令 是 读 寄存 器 $rsp 的 。 

@ 执行 (execute): 在 执行 阶段 ， 算 术 / 逻 辑 单元 (ALU) 要 么 执行 指令 指明 的 操作 ( 根 

据 ifun 的 值 ) ， 计 算 内 存 引 用 的 有 效 地 址 ， 要 人 么 增加 或 减少 栈 指针 。 得 到 的 值 我 们 
称 为 valE。 在 此 ， 也 可 能 设置 条 件 码 。 对 一 条 条 件 传 送 指令 来 说 ， 这 个 阶段 会 检 
验 条 件 码 和 传送 条 件 ( 由 ifun 给 出 )， 如 果 条 件 成 立 ， 则 更 新 目标 寄存 器 。 同 样 ， 








对 一 条 跳 转 指令 来 说 ， 这 个 阶段 会 决定 是 不 是 应 该 选择 分 支 。 
e 访 存 (memory): 访 存 阶段 可 以 将 数据 写 人 内 存 ， 或 者 从 内 存 读 出 数据 。 读 出 的 值 
为 valLM。 
e 写 回 (write back) : 写 回 阶段 最 多 可 以 写 两 个 结果 到 寄存 器 文件 。 
@ 更 新 PC(PC update): 将 PC 设置 成 下 一 条 指令 的 地 址 。 
处 理 器 无 限 循环 ， 执 行 这 些 阶 段 。 在 我 们 简化 的 实现 中 ， 发 生 任 何 异 常 时 ， 处 理 器 就 
. 会 停止 : 它 执行 halt 指令 或 非法 指令 ， 或 它 试图 读 或 者 写 非 法 地 址 。 在 更 完整 的 设计 中 ， 
处 理 器 会 进入 异常 处 理 模式 ， 开 始 执行 由 异常 的 类 型 决定 的 特殊 代码 。 

从 前 面 的 讲述 可 以 看 出 ， 执 行 一 条 指令 是 需要 进行 很 多 处 理 的 。 我 们 不 仅 必须 执行 指 
令 所 表明 的 操作 ， 还 必须 计算 地 址 、 更 新 栈 指 针 ， 以 及 确定 下 一 条 指令 的 地 址 。 幸 好 每 条 
指令 的 整个 流程 都 比较 相似 。 因 为 我 们 想 使 硬件 数量 尽 可 能 少 ， 并 且 最 终 将 把 它 映射 到 一 
个 二 维 的 集成 电路 芯片 的 表面 ， 在 设计 硬件 时 ， 一 个 非常 简单 而 一 致 的 结构 是 非常 重要 
的 。 降 低 复杂 度 的 一 种 方法 是 让 不 同 的 指令 共享 尽量 多 的 硬件 。 例 如 ， 我 们 的 每 个 处 理 器 
设计 都 只 含有 一 个 算术 /逻辑 单元 ， 根 据 所 执行 的 指令 类 型 的 不 同 ， 它 的 使 用 方式 也 不 同 。 
在 硬件 上 复制 逻辑 块 的 成 本 比 软件 中 有 重复 代码 的 成 本 大 得 多 。 而 且 在 硬件 系统 中 处 理 许 
多 特殊 情况 和 特性 要 比 用 软件 来 处 理 困 难得 多 。 

我 们 面临 的 一 个 挑战 是 将 每 条 不 同 指令 所 需要 的 计算 放 人 到 上 述 那个 通用 框架 中 。 我 
们 会 使 用 图 4-17 中 所 示 的 代码 来 描述 不 同 Y86-64 指令 的 处 理 。 图 4-18 一 图 4-21 中 的 表 描 
述 了 不 同 Y86-64 指令 在 各 个 阶段 是 怎样 处 理 的 。 很 值得 仔细 研究 一 下 这 些 表 。 表 中 的 这 
种 格式 很 容易 映射 到 硬件 。 表 中 的 每 一 行 都 描述 了 一 个 信号 或 存储 状态 的 分 配 ( 用 分 配 操 
作 -- 来 表示 ) 。 阅 读 时 可 以 把 它 看 成 是 从 上 至 下 的 顺序 求 值 。 当 我 们 将 这 些 计算 映射 到 硬 
件 时 ， 会 发 现 其 实 并 不 需要 严格 按照 顺序 来 执行 这 些 求 值 。 


: 30f20900000000000000 | irmovg $9, %rdx 

: 30f31500000000000000 | irmovg $21, %rbx 

: 6123 | subq %rdx, %rbx # subtract 

: 30f48000000000000000 irmovg $128,%rsp # Problem 4.13 
: 40436400000000000000 Immovq %rsp, 100(%rbx) # store 

: a02f pushq %rdx # push 

: b00f popq %rax # Problem 4.14 
: 734000000000000000 je done # Not taken 


成 
Doom 上 wh 一 


done : 
halt 
proc: 
ret # Return 


: 00 


me 
网 本“ 二 


: 90 


sd 
Wo 


| 
| 
| 
| 
| 
: 804100000000000000 | call proc # Problem 4.18 
| 
| 
| 
| 
| 


上 





图 4-17 Y86-64 指令 序列 示例 。 我 们 会 跟踪 这 些 指令 通过 各 个 阶段 的 处 理 


图 4-18 给 出 了 对 OPa( 整 数 和 逻辑 运算 ) 、rzrmovq( 寄 存 器 -寄存 器 传送 ) 和 irmovaq( 立 
即 数 - 寄 存 器 传送 ) 类 型 的 指令 所 需 的 处 理 。 让 我 们 先 来 考虑 一 下 整数 操作 。 回 顾 图 4-2， 
可 以 看 到 我 们 小 心地 选择 了 指令 编码 ， 这 样 四 个 整数 操作 (addq、subq、andg 和 xorq) 都 
”有 相同 的 icode 值 。 我们 可 以 以 相同 的 步骤 顺序 来 处 理 它们 ， 除 了 ALU 计算 必须 根据 
”ifun 中 编码 的 具体 的 指令 操作 来 设 定 。 
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图 4-18 


整数 操作 指令 的 处 理 遵循 上 面 列 出 的 通用 模式 。 在 取 指 阶段 ， 我 们 不 需要 常数 字 ， 所 
以 valP 就 计算 为 PC 十 2。 在 译 码 阶 段 ， 我 们 要 读 两 个 操作 数 。 在 执行 阶段 ， 它 们 和 功能 
指示 符 ifun 一 起 再 提供 给 ALU， 这 样 一 来 valE 就 成 为 了 指令 结果 。 这 个 计算 是 用 表达 
式 valB OP valA 来 表达 的 ， 这 里 OP 代表 ifun 指定 的 操作 。 要 注意 两 个 参数 的 顺序 一 一 
这 个 顺序 与 Y86-64( 和 x86-64) 的 习惯 是 一 致 的 。 例 如 ， 指 令 subq %rax，%rdx 计算 的 是 
R[%rdx]-R[%rax] 的 值 。 这 些 指 令 在 访 存 阶段 什么 也 不 做 ， 而 在 写 回 阶段 ，valE 被 写 人 


第 一 部 分 程序 结 冤 和 执行 























OPq rA,rB rrmovga rA,rB irmovqV, rB 

icode:ifun «— M1[PC] icode:ifun — Mi [PC] icode:ifun 二 M1[PC] 

rA:rB 二 MiLPC 十 1] rA:rB — M1[PC++1] rA:rB 二 MiLPC 二 1] 
valC 二 Ms[LPC 十 2] 





valP 一 PC 十 2 valP 二 PC 十 2 valP 二 PC 十 10 
















valA 一 RLrA] valA «— RLrA] 


valB — RLrB] 



















valE 一 0 十 valA valE 一 0 十 valC 


R[rBJ]— valE RLrB]* 一 valE R[rB]*— valE 


PC valP PC valP 


valE 二 valB OP valA 
Set CC 























访 存 





PC 一 valP 








Y86-64 指令 OPq、rrmovq 和 irmovq 在 顺序 实现 中 的 计算 。 这 些 指 令 计算 了 一 个 值 ， 并 将 结果 
存放 在 寄存 器 中 。 符 号 icode:ifun 表明 指令 字 节 的 两 个 组 成 部 分 ， 而 rA:rB 表明 寄存 器 指示 
符 字 节 的 两 个 组 成 部 分 。 符 号 M [x] 表 示 访 问 ( 读 或 者 写 ) 内 存 位 置 x 处 的 一 个 字 节 ， 而 Ms [x] 表 


示 访 问 八 个 字 节 


寄存 器 rB， 然 后 PC 设 为 valP， 整 个 指令 的 执行 就 结束 了 。 


| 旁 注 | 跟踪 subq 指令 的 执行 


作为 一 个 例子 ， 让 我 们 来 看 看 一 条 subq 指令 的 处 理 过 程 ， 这 条 指令 是 图 4-17 所 示 
目标 代码 的 第 3 行 中 的 subq 指令 。 可 以 看 到 前 面 两 条 指令 分 别 将 寄存 器 srdx 和 grbx 
初始 化 成 9 和 21。 我 们 还 能 看 到 指令 位 于 地 址 0x014， 由 两 个 字 节 组 成 ， 值 分 别 为 
0x61 和 0x23。 这 条 指令 处 理 的 各 个 阶段 如 下 表 所 示 ， 左 边 列 出 了 处 理 一 个 OPq 指令 的 


通用 的 规则 (图 4-18)， 而 右边 列 出 的 是 对 这 条 具体 指令 的 计算 。 


取 指 icode:ifun — M1 [PC] icode:ifun *- Mi[ 0x014]= 6:1 
rA:rB +— Mi[PC+1] rA:rB 一 MiL Ox015]=2:3 
valP 一 PC 十 2 
译 码 valA 一 RLrA] valA — RLsrdx] 王 9 
valB 二 RLrB] valB «— R[ srbx]= 21 
执行 valE 二 valB OP valA valE 二 21— 9= 12 
Set CC ZF*— 0, SF*— 0, OF—0 
























valP 二 0x014 十 2 一 0x016 





RLrB] 一 valE RLsrbx]* 一 valE 王 12 
更 新 PC PC 一 valP PC 二 valP= 0x016 
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这 个 跟踪 表明 我 们 达到 了 理想 的 效果 ， 寄 存 器 $rbx 设 成 了 12， 三 个 条 件 码 都 设 成 
0 Wi Pe TD 


执行 rrmovq 指令 和 执行 算术 运算 类 似 。 不 过 ， 不 需要 取 第 二 个 寄存 器 操作 数 。 我 们 
将 ALU 的 第 二 个 输入 设 为 0， 先 把 它 和 第 一 个 操作 数 相 加 ， 得 到 valE= valA， 然 后 再 把 
这 个 值 写 到 寄存 器 文件 。 对 irmovgq 的 处 理 与 此 类 似 ， 除 了 ALU 的 第 一 个 输入 为 常数 值 
valC。 另 外 ， 因 为 是 长 指令 格式 ， 对 于 irmovq， 程 序 计数 器 必须 加 10。 所 有 这 些 指令 都 
不 改变 条 件 码 。 
全 练习 题 4. 13 填写 下 表 的 右边 一 栏 ， 这 个 表 描 述 的 是 图 4-17 中 目标 代码 第 4 行 上 的 


irmovq 指令 的 处 理 情况 : 
具体 
irmovgq $128, grsp 















阶段 
irmovq V, rB 


取 指 icode :ifun +— MiLPC] 
rA:rB 一 Mi[PC 十 1 
valC 一 MsLPC 十 2] 


valP 二 PC 十 10 


9 i 
写 回 


















这 条 指令 的 执行 会 怎样 改变 寄存 器 和 PC 呢 ? 

图 4-19 给 出 了 内 存 读 写 指令 rmmovg 和 mrmovdq 所 需要 的 处 理 。 基 本 流程 也 和 前 面 的 
一 样 ， 不 过 是 用 ALU 来 加 valc 和 valB， 得 到 内 存 操作 的 有 效 地址 ( 偏 移 量 与 基 址 寄存 器 
值 之 和 ) 。 在 访 存 阶段 ， 会 将 寄存 器 值 valaA 写 到 内 存 ， 或 者 从 内 存 中 读 出 vaLM。 

















rmmovq rA, D(rB) mrmovg D(rB), rA 





icode :ifun 二 M1 [PC] 
rA:rB — Mi[PC+1] 
valC 一 MsLPC 十 2] 

valP 一 PC 十 10 







icode:ifun 一 MiLPC] 
rA:rB — Mi[PC++1] 
valC 一 MsLPC 十 2] 

valP 一 PC 十 10 









valA +— R[rA] 
valB «— RLrB] 






valB *- RLrB] 









valE « valB 十 valC 
Ms[LvalE] 一 valA 


valE «— valB 十 vaiC 
valE 一 Ms[LvalE] 


| em 
por 


图 4-19 Y86-64 指令 rmmovq 和 mrmovq 在 顺序 实现 中 的 计算 。 这 些 指令 读 或 者 写 内 存 


旁 注 | 跟踪 rmmovq 指令 的 执行 


让 我 们 来 看 看 图 4-17 中 目标 代码 的 第 5 行 rmmovq 指令 的 处 理 情况 。 可 以 看 到 ， 前 
面 的 指令 已 将 寄存 器 %$rsp 初始 化 成 了 128， 而 $rbx 仍然 是 subq 指令 (第 3 行 ) 算 出 来 的 




























结果 12。 我 们 还 可 以 看 到 ， 指 令 位 于 地 址 0x020， 有 10 个 字 节 。 前 两 个 的 值 为 0x40 和 
0x43， 后 8 个 是 数字 0x0000000000000064( 十 进 制 数 100) 按 字 节 反 过 来 得 到 的 数 。 各 
个 阶段 的 处 理 如 下 : 










阶段 





rmmovg rA, D(rB) 
icode:ifun +— Mi [PC] 


rmmovg Srsp, 100 (%rbx) 








取 指 icode: ifun 一 Mi[ 0x020]=4:0 





rA:rB +— Mi[PC++1] 
valP 二 MsLPC 十 2] 
valP 二 PC 十 10 


译 码 valA 二 RLrA] 
valB — R[rB]J 


valE + valB 十 valC 































rA:rB — Mi[ 0x021]= 4:3 
valC 一 Ms[ 0x022]=100 
valP 二 0x020 十 10= 0x02a 


valA +— RLsrsp] 一 128 
valB 二 RLsrbx] 一 12 





valE 二 12 十 100 王 112 








跟踪 记录 表明 这 条 指令 的 效果 就 是 将 128 写 入 内 存 地 址 112， 并 将 PC 加 10。 


图 4-20 给 出 了 处 理 pushq 和 popq 指令 所 需 的 步骤。 它们 可 以 算是 最 难 实现 的 Y86- 
64 指令 了 ， 因 为 它们 既 涉及 访问 内 存 ， 又 要 增加 或 减少 栈 指 针 。 虽 然 这 两 条 指令 的 流程 


比较 相似 ， 但 是 它们 还 是 有 很 重要 的 区 别 。 


icode :ifun «— Mi[PC] 
rA:rB — Mi[PC+1] 







valP 二 PC 十 2 


译 码 valA — RLrA] 
valB 二 RLsrsp] 


执行 valE 一 valB 十 (一 8) 











popq rA 
icode:ifun 二 MiLPC] 
rA:rB +— MiLPC 十 1 


valP 二 PC 十 2 






valA — RLsrsp] 
valB — RLsrsp] 











valE 一 valB 十 8 








Ms [valE]+— valA 





valE 二 Ms [valA] 











RLsrsp] 一 valE 





PC 二 valP 





R[srspj+*— valE 
RLrA] 一 valM 
PC 二 valP 















图 4-20 


Y86-64 指令 pushq 和 popq 在 顺序 实现 中 的 计算 。 这 些 指令 将 值 压 人 或 弹出 栈 


pushq 指令 开始 时 很 像 我 们 前 面 讲 过 的 指令 ， 但 是 在 译 码 阶 段 ， 用 srsp 作为 第 二 个 
寄存 器 操作 数 的 标识 符 ， 将 栈 指针 赋值 为 valB。 在 执行 阶段 ， 用 ALU 将 栈 指针 减 8。 减 
过 8 的 值 就 是 内 存 写 的 地 址 ， 在 写 回 阶段 还 会 存 回 到 srsp 中 。 将 valE 作为 写 操作 的 地 
址 ， 是 遵循 Y86-64( 和 x86-64) 的 惯例 ， 也 就 是 在 写 之 前 ，pushq 应 该 先 将 栈 指针 减 去 8， 
即使 栈 指针 的 更 新 实际 上 是 在 内 存 操 作 完 成 之 后 才 进 行 的 。 


跟踪 pushq 指令 的 执行 
让 我 们 来 看 看 图 4-17 中 目标 代码 的 第 6 行 pushq 指令 的 处 理 情况 。 此 时 ， 寄 存 
器 srdx 的 值 为 9， 而 寄存 器 srsp 的 值 为 128。 我 们 还 可 以 看 到 指令 是 位 于 地 址 0x02a， 
有 两 个 字 节 ， 值 分 别 为 0xa0 和 0x2f。 各 个 阶段 的 处 理 如 下 : 


第 4 章 处 理 器 体系 结构 269 

















pushq Srdx 


icode:ifun 二 Mi[ 0x02a]=a:0 
rA:rB 二 Mi[0x02b]= 2:f£ 







icode:ifun +— Mi[PC] 
rA:rB 二 Mi[PC 十 1] 






valP 一 PC 十 2 





valP 一 0x02a 十 2 一 0x02c 


















valA 一 RErA] 
valB 一 RLsrsp] 


valA 二 R[srdx]=9 
valB — RLsrsp] 一 128 








valE 一 valB 十 (一 8) 
Ms[vaiE] 一 valA Ms[120]— 9 


| reer 
EPC | Po va 


跟踪 记录 表明 这 条 指令 的 效果 就 是 将 srsp 设 为 120， 将 9 写 入 地 址 120， 并 将 PC 
加 2。 


popq 指令 的 执行 与 pushq 的 执行 类 似 ， 除了 在 译 码 阶段 要 读 两 次 栈 指针 以 外 。 这 样 
做 看 上 去 很 多 余 ， 但 是 我 们 会 看 到 让 valA 和 valB 都 存放 栈 指针 的 值 ， 会 使 后 面 的 流程 
跟 其 他 的 指令 更 相似 ， 增 强 设计 的 整体 一 致 性 。 在 执行 阶段 ,用 ALU 给 栈 指 针 加 8， 但 
是 用 没 加 过 8 的 原始 值 作为 内 存 操作 的 地 址 。 在 写 回 阶段 ， 要 用 加 过 8 的 栈 指针 更 新 栈 指 
针 寄 存 器 ， 还 要 将 寄存 器 rA 更 新 为 从 内 存 中 读 出 的 值 。 用 没 加 过 8 的 值 作为 内 存 读 地 址 ， 
保持 了 Y86-64( 和 x86-64) 的 惯例 ，popq 应 该 首先 读 内 存 ， 然 后 再 增加 栈 指针 。 
练习 题 4. 14 填写 下 表 的 右边 一 栏 ， 这 个 表 描 述 的 是 图 4-17 中 目标 代码 第 7 行 popq 

指令 的 处 理 情 况 : 


valE 二 128 十 (一 8) 一 120 
































Popg Srax 


popq rA 


取 指 icode :ifun 一 Mi[ PC] 
rA:rB 二 Mi[PC+1] 








valP 一 PC 十 2 





译 码 valA +— RLsrsp] 
valB 一 RLsrsp] 









执行 valE 二 valB 十 8 














访 存 valM 二 Ms[valA] 
写 回 RLSrspj*— valE 
RLrA] 一 valM 











更 新 PC | 
这 条 指令 的 执行 会 怎样 改变 寄存 器 和 PC 呢 ? 

练习 题 4. 15 根据 图 4-20 中 列 出 的 步骤， 指令 pushq srsp 会 有 什么 样 的 效果 ? 这 与 
练习 题 4.7 中 确定 的 Y86-64 期 望 的 行为 一 致 吗 ? 

SN 练习 题 4.16 假设 popq 在 写 回 阶段 中 的 两 个 寄存 器 写 操作 按照 图 4-20 列 出 的 顺序 进 
行 。popq srsp 执行 的 效果 会 是 怎样 的 ? 这 与 练习 题 4.8 中 确定 的 Y86-64 期 望 的 行 
为 一 致 吗 ? 
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图 4-21 表明 了 三 类 控制 转移 指令 的 处 理 : 各 种 跳 转 、call 和 ret。 可 以 看 到 ， 我们 
能 用 同 前 面 指令 一 样 的 整体 流程 来 实现 这 些 指令 。 








jJXX Dest call Dest ret 


icode:ifun 二 Mi1[ PC] icode :ifun 二 M1[ PC] icode :ifun 二 MiLPC] 
































valC 一 Ms[PC 十 ]] valC 一 MsLPC 十 1] 
valP 二 PC 十 9 valP 一 PC 十 9 valP 二 PC 十 1 
valA 一 RLsrsp] 
valB 一 RLsrsp] valB 一 RLsrsp] 
valE 二 valB 十 (一 8) valE 一 valB 十 8 
Cnd 二 Cond(CC, ifun) 
Ms[LvalE] 一 valP valM +— Ms[LvalA] 























RL[srsp] 一 valE RLsrsp] 一 valE 
PC 二 Cnd?valC:valP PC 二 valC PC 二 valM 


图 4-21 Y86-64 指令 jXx、call 和 ret 在 顺序 实现 中 的 计算 。 这 些 指令 导致 控制 转移 


同 对 整数 操作 一 样 ， 我 们 能 够 以 一 种 统一 的 方式 处 理 所 有 的 跳 转 指令 ， 因 为 它们 的 不 同 
只 在 于 判断 是 否 要 选择 分 支 的 时 候 。 除 了 不 需要 一 个 寄存 器 指示 符 字 节 以 外 ， 跳 转 指令 在 取 
指 和 译 码 阶段 都 和 前 面 讲 的 其 他 指令 类 似 。 在 执行 阶段 ， 检 查 条 件 码 和 跳 转 条 件 来 确定 是 否 
要 选择 分 支 ， 产 生出 一 个 一 位 信号 cnd。 在 更 新 PC 阶段 ， 检 查 这 个 标志 ， 如 果 这 个 标志 
1， 就 将 PC 设 为 valc( 跳 转 目标 )， 如 果 为 0， 就 设 为 valP( 下 一 条 指令 的 地 址 )。 我 们 的 表示 法 
Z?a: 0 类似 于 C 语句 中 的 条 件 表达 式 一 一 当 z 非 零 时 ， 它 等 于 a， 当 z 为 零 时 ， 等 于 2。 


让 我 们 来 看 看 图 4-17 中 目标 代码 的 第 8 行 je 指令 的 处 理 情况 。subq 指令 (第 3 行 ) 
已 经 将 所 有 的 条 件 码 都 置 为 了 0， 所 以 不 会 选择 分 支 。 该 指令 位 于 地 址 0x02e， 有 9 个 
字 节 。 第 一 个 字 节 的 值 为 0x73， 而 剩 下 的 8 个 字 节 是 数字 0x0000000000000040 按 字 节 
反 过 来 得 到 的 数 ， 也 就 是 跳 转 的 目标 。 各 个 阶段 的 处 理 如 下 : 






通用 





jxXXx Dest je 0x040 





icode :ifun 一 MiLPC] 





icode :ifun 一 MiLOx02e] 王 7:3 





valC 二 MsLPC 十 ]] 
valP 二 - PC 十 9 


valC 二 Ms[ Ox02f£]==0x040 
valP 二 0x02e 十 9 一 0x037 






译 码 








Cnd 二 Cond(CC, ifun) 





Cnd 二 Cond((0, 0, 0), 3)=0 





写 回 
更 新 PC 





阶段 
取 指 
| 
执行 
| | 
| 更 新 PC | 


PC 二 Cnd?valC:valP PC 二 0? 0x040:0x037 王 0x037 
就 像 这 个 跟踪 记录 表明 的 那样 ， 这 条 指令 的 效果 就 是 将 PC 加 9。 


区 他 练习 题 4.17 从 指令 编码 (图 4-2 和 图 4-3) 我 们 可 以 看 出 ，rmmovq 指令 是 一 类 更 通用 
的 、 包 括 条 件 转移 在 内 的 指令 的 无 条 件 版 本 。 请 给 出 你 要 如 何 修 改 下 面 rrmovq 指令 
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的 步 又， 使 之 也 能 处 理 6 个 条 件 传送 指令 。 看 看 jXX 指令 的 实现 (图 4-21) 是 如 何 处 理 
条 件 行为 的 ， 可 能 会 有 所 帮助 。 


cmovwXX rA,rB 


icode :ifun — M1 [PC] 
rA:rB 一 Mi[PC+1] 
valP 二 PC 十 2 
valA 一 RLrA] 
valE 一 0 十 valA 









取 指 






译 码 













RLrB] 一 valE 
PC 二 valP 


指令 call 和 ret 与 指令 pushq 和 popg 类 似 ， 除 了 我 们 要 将 程序 计数 器 的 值 人 栈 和 
出 栈 以 外 。 对 指令 cal1， 我 们 要 将 valP， 也 就 是 call 指令 后 紧 跟 着 的 那 条 指令 的 地 址 ， 
压 人 栈 中 。 在 更 新 PC 阶段 ， 将 PC 设 为 valc， 也 就 是 调用 的 目的 地 。 对 指令 ret， 在 更 
新 PC 阶段 ， 我 们 将 valM， 即 从 栈 中 取出 的 值 ， 赋 值 给 PC。 
练习 题 4. 18 填写 下 表 的 右边 一 栏 ， 这 个 表 描 述 的 是 图 4-17 中 目标 代码 第 9 行 call 
站 令 的 处 理 情况 : 





call Dest call 0x041 


icode:ifun 一 Mi [PC] 





valC 二 Ms [PC+1] 


valP — PC 十 9 
译 码 

valB 一 RLsrsp] 
执行 valE 一 valB 十 (一 8) 
访 存 Ms[valE] 一 valP 
写 回 RLsrspj] 一 valE 











更 新 PC PC 一 valC 


这 条 指令 的 执行 会 怎样 改变 寄存 器 、PC 和 内 存 呢 ? 

我 们 创建 了 一 个 统一 的 框架 ， 能 处 理 所 有 不 同类 型 的 Y86-64 指令 。 虽 然 指 令 的 行为 
大 不 相同 ， 但 是 我 们 可 以 将 指令 的 处 理 组 织 成 6 个 阶段 。 现 在 我 们 的 任务 是 创建 硬件 设计 
来 实现 这 些 阶 段 ， 并 把 它们 连接 起 来 。 


区 和 跟踪 ret 指令 的 执行 

让 我 们 来 看 看 图 4-17 中 目标 代码 的 第 13 行 ret 指令 的 处 理 情 况 。 指 令 的 地 址 是 
0x041， 只 有 一 个 字 节 的 编码 ，0x90。 前 面 的 call 指令 将 srsp 置 为 了 120， 并 将 返回 
地 址 0x040 存放 在 了 内 存 地 址 120 中 。 各 个 阶段 的 处 理 如 下 : 












icode:ifun 二 MiLPC] 





valP*— POt1 











valA 一 RLsrsp] 
valB — R[ srsp] 





valE 一 valB 十 8 












valM 二 Ms[LvalA] 
RL%rsp]*— valE 











更 新 PC PC 一 valM 












icode :ifun 二 Mi[ 0x041]= 9:0 







valP 二 0x041 十 1 二 0x042 






valA 二 RLsrsp] 王 120 
valB 一 RLsrspj] 王 120 


valE 二 120 十 8 王 128 


valM +— Ms[120]= 0x040 


RL%rspj*- 128 



















跟踪 记录 表明 这 条 指令 的 效果 就 是 将 PC 设 为 0x040，halt 指令 的 地 址 。 同 时 也 将 


Srsp 置 为 了 128。 


4. 3. 2 ”SEQ 硬件 结构 


实现 所 有 Y86-64 指令 所 需要 的 计算 可 以 
被 组 织 成 6 个 基本 阶段 : 取 指 、 译 码 、 执 行 、 
访 存 、 写 回 和 更 新 PC。 图 4-22 给 出 了 一 个 能 
执行 这 些 计算 的 硬件 结构 的 抽象 表示 。 程 序 计 
数 器 放 在 寄存 器 中 ， 在 图 中 左下 角 ( 标 明 为 
“PC”)。 然 后 ， 信 息 沿 着 线 流动 (多 条 线 组 合 在 
一 起 就 用 宽 一 点 的 灰 线 来 表示 )， 先 向 上 ， 再 
向 右 。 同 各 个 阶段 相关 的 硬件 单元 (hardware 
units) 负 责 执行 这 些 处 理 。 在 右边 ， 反 馈线 路 
向 下 ， 包 括 要 写 到 寄存 器 文件 的 更 新 值 ， 以 及 
更 新 的 程序 计数 器 值 。 正 如 在 4. 3. 3 节 中 讨论 
的 那样 ， 在 SEQ 中 ， 所 有 硬件 单元 的 处 理 都 
在 一 个 时 钟 周期 内 完成 。 这 张 图 省 略 了 一 些小 
的 组 合 逻 辑 块 ， 还 省 略 了 所 有 用 来 操作 各 个 硬 
件 单 元 以 及 将 相应 的 值 路 由 到 这 些 单 元 的 控制 
逻辑 。 稍 后 会 补充 这 些 细节 。 我 们 从 下 往 上 夯 
处 理 器 和 流程 的 方法 似乎 有 点 奇怪 。 在 开始 设计 
流水 线 化 的 处 理 器 时 ， 我 们 会 解释 这 么 画 的 原因 。 

硬件 单元 与 各 个 处 理 阶 段 相 关联 : 

取 指 : 将 程序 计数 器 寄存 器 作为 地 址 ， 指 
令 内 存 读 取 指令 的 字 节 。PC 增加 器 (PC incre- 
menter) 计 算 valP， 即 增加 了 的 程序 计数 器 。 

译 码 : 寄存 器 文件 有 两 个 读 端 口 A 和 了 B， 
从 这 两 个 端口 同时 读 寄存 器 值 valA 和 valB。 








程序 计数 器 新 PC 
(PC ) 更 新 人 > | 
valE, valM .| 
写 回 昌 
valM - 
, 数据 :| 
沪 丰 : 
地 址 ， 数 据 

valE 

Si CC | 
执行 a | 
aluA, aluB 吕 
valA, valB > 
i srcA, srcB | 
译 码 “dstE, dstM 
aes Pe valP | 
valc : A 。 | 
Pp 1 


图 4-22 ”SEQ 的 抽象 视图 ， 一 种 顺序 实现 。 指 令 执行 
过 程 中 的 信息 处 理 沿 着 顺 时 针 方向 的 流程 进 
行 ， 从 用 程序 计数 器 (PC) 取 指令 开始 ， 如 图 
中 左下 角 所 示 
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执行 : 执行 阶段 会 根据 指令 的 类 型 ， 将 算术 /逻辑 单元 (ALU) 用 于 不 同 的 目的 。 对 整 
数 操作 ， 它 要 执行 指令 所 指定 的 运算 。 对 其 他 指令 ， 它 会 作为 一 个 加 法 器 来 计算 增加 或 减 
少 栈 指针 ， 或 者 计算 有 效 地 址 ， 或 者 只 是 简单 地 加 0， 将 一 个 输入 传递 到 输出 。 

条 件 码 寄存 器 (CC) 有 三 个 条 件 码 位 。ALU 负责 计算 条 件 码 的 新 值 。 当 执行 条 件 传 送 
指令 时 ， 根 据 条 件 码 和 传送 条 件 来 计算 决定 是 否 更 新 目标 寄存 器 。 同 样 ， 当 执行 一 条 跳 转 
指令 时 ， 会 根据 条 件 码 和 跳 转 类 型 来 计算 分 支 信号 cnd。 

访 存 : 在 执行 访 存 操 作 时 ， 数 据 内 存 读 出 或 写 人 一 个 内 存 字 。 指 令 和 数据 内 存 访 问 的 
是 相同 的 内 存 位 置 ， 但 是 用 于 不 同 的 目的 。 

写 回 : 寄存 器 文件 有 两 个 写 端 口 。 端 口 E 用 来 写 ALU 计算 出 来 的 值 ， 而 端口 M 用 来 
写 从 数据 内 存 中 读 出 的 值 。 

PC 更 新 : 程序 计数 器 的 新 值 选择 自 : valP， 下 一 条 指令 的 地 址 ; valc， 调 用 指令 或 
跳 转 指令 指定 的 目标 地 址 ; val1M， 从 内 存 读 取 的 返回 地 址 。 

图 4-23 更 详细 地 给 出 了 实现 SEQ 所 需要 的 硬件 (分 析 每 个 阶段 时 ， 我 们 会 看 到 完整 的 





程序 计数 器 
(PC) 更 新 
访 存 
执行 
人 虹 
译 码 





instr_valid: 
imem_error: 


取 指 


Devoevnoonon. 


图 4-23 ”SEQ 的 硬件 结构 ， 一 种 顺序 实现 。 有 些 控 制 信号 以 及 寄存 器 和 控制 字 连 接 没有 画 出 来 
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细节 )。 我 们 看 到 一 组 和 前 面 一 样 的 硬件 单元 , 但 是 现在 线路 看 得 更 清楚 了 。 这 幅 图 以 及 
其 他 的 硬件 图 都 使 用 的 是 下 面 的 画图 惯例 。 

@ 白色 方 框 表示 时 钟 寄存 器 。 程 序 计 数 器 PC 是 SEQ 中 唯一 的 时 钟 寄 存 器 。 

@ 浅 蓝 色 方 框 表 示 硬 件 单 元 。 这 包括 内 存 、ALU 等 等 。 在 我 们 所 有 的 处 理 器 实现 中 ， 
都 会 使 用 这 一 组 基本 的 单元 。 我 们 把 这 些 单 元 当 作 “墨盒 子 ”， 不 关心 它们 的 细节 
设计 。 

@ 控制 远 辑 块 用 灰色 圆 角 短 形 表示 。 这 些 块 用 来 从 一 组 信号 源 中 进行 选择 ， 或 者 用 来 
计算 一 些 布尔 函数 。 我 们 会 非常 详细 地 分 析 这 些 块 ， 包 括 给 出 HCL 描述 。 

@ 线路 的 名 字 在 白色 圆圈 中 说 明 。 它 们 只 是 线路 的 标识 ， 而 不 是 什么 硬件 单元 。 

@ 宽度 为 字 长 的 数据 连接 用 中 等 粗 度 的 线 表 示 。 每 条 这 样 的 线 实际 上 都 代表 一 簇 .64 
根 线 ， 并 列 地 连 在 一 起 ， 将 一 个 字 从 硬件 的 一 个 部 分 传送 到 另 一 部 分 。 

@ 宽度 为 字 节 或 更 窄 的 数据 连接 用 细 线 表示 。 根 据 线 上 要 携带 的 值 的 类 型 ， 每 条 这 样 
的 线 实 际 上 都 代表 一 簇 4 根 或 8 根 线 。 

@ 单个 位 的 连接 用 虚线 来 表示 。 这 代表 芯片 上 单元 与 块 之 间 传 递 的 控制 值 。 

图 4-18 一 图 4-21 中 所 有 的 计算 都 有 这 样 的 性 质 ， 每 一 行 都 代表 某 个 值 的 计算 (如 
valP)， 或 者 激活 某 个 硬件 单元 (如 内 存 )。 图 4-24 的 第 二 栏 列 出 了 这 些 计算 和 动作 。 除 了 
我 们 已 经 讲 过 的 那些 信号 以 外 ， 还 列 出 了 四 个 寄存 器 ID 信号: srcA，valA 的 源 ; srcB， 
valB 的 源 ; dstE， 写 入 valE 的 寄存 器 ; 以 及 dstM， 写 人 valM 的 寄存 器 。 












OPq rA,rB mrmovg D(rB), rA 





取 指 icode :ifun icode :ifun 二 M1[ PC] icode:ifun 一 MiLPC] 
rA,rB rA:rB 一 Mi[PC 二 1 rA:rB — MiLPC 十 1] 
valC - valC +— Ms[PC 十 2] 
valP valP +— PC 十 2 valP 二 PC 十 10 


























译 码 valA, srcA valA 一 RLrA] 
valB, srcB valB -RELrB] valB +— RLrB] 
执行 valE valE 一 valB OP valA valE 一 valB 十 valC 
Cond. codes Set CC 
访 存 Read/write valM +— Ms [LvalE] 
写 回 E port, dstE RErB]+— valE 
M port, dstM RLrAj 一 valM 
更 新 PC PC PC 二 valP PC 一 valP 








图 4-24 标识 顺序 实现 中 的 不 同 计算 步 又 。 第 二 栏 标识 出 SEQ 阶段 中 正在 被 计算 的 值 ， 
或 正在 被 执行 的 操作 。 以 指令 oPq 和 mrmovdq 的 计算 作为 示例 
图 中 ， 右 边 两 栏 给 出 的 是 指令 oPgq 和 mrmova 的 计算 ， 来 说 明 要 计算 的 值 。 要 将 这 些 
计算 映射 到 硬件 上 ， 我 们 要 实现 控制 逻辑 ， 它 能 在 不 同 硬件 单元 之 间 传 送 数据 ， 以 及 操作 
这 些 单 元 ， 使 得 对 每 个 不 同 的 指令 执行 指定 的 运算 。 这 就 是 控制 逻辑 块 的 目标 ， 控 制 逻 辑 
块 在 图 4-23 中 用 灰色 圆 角 方 框 表 示 。 我 们 的 任务 就 是 依次 经 过 每 个 阶段 ， 创 建 这 些 块 的 
详细 设计 。 





4.3.3 SEQ 的 时 序 


在 介绍 图 4-18 一 图 4-21 的 表 时 ， 我 们 说 过 要 把 它们 看 成 是 用 程序 符号 写 的 ， 那 些 赋 
值 是 从 上 到 下 顺序 执行 的 。 然而， 图 4-23 中 硬件 结构 的 操作 运行 根本 完全 不 同 ， 一 个 时 





钟 变化 会 引发 一 个 经 过 组 合 逻 辑 的 流 ， 来 执行 整个 指令 。 让 我 们 来 看 看 这 些 硬 件 怎 样 实现 
表 中 列 出 的 这 一 行为 。 

SEQ 的 实现 包括 组 合 逻辑 和 两 种 存储 器 设备 : 时 钟 寄 存 器 (程序 计数 器 和 条 件 码 寄存 
器 ) ， 随 机 访问 存储 器 (寄存 器 文件 、 指 令 内 存 和 数据 内 存 )。 组 合 逻 辑 不 需要 任何 时 序 或 
控制 一 一 只 要 输入 变化 了 ， 值 就 通过 逻辑 门 网 络 传播 。 正 如 提 到 过 的 那样 ， 我 们 也 将 读 随 
机 访问 存储 器 看 成 和 组 合 逻辑 一 样 的 操作 ， 根 据 地 址 输入 产生 输出 字 。 对 于 较 小 的 存储 器 
来 说 (例如 寄存 器 文件 )， 这 是 一 个 合理 的 假设 ， 而 对 于 较 大 的 电路 来 说 ， 可 以 用 特殊 的 时 
钟 电路 来 模拟 这 个 效果 。 由 于 指令 内 存 只 用 来 读 指令 ， 因 此 我 们 可 以 将 这 个 单元 看 成 是 组 
合 逻辑 。 

现在 还 剩 四 个 硬件 单元 需要 对 它们 的 时 序 进行 明确 的 控制 一 一 程序 计数 器 、 条 件 码 寄 
存 器 、 数 据 内 存 和 寄存 器 文件 。 这 些 单元 通过 一 个 时 钟 信 号 来 控制 ， 它 触发 将 新 值 装载 到 
寄存 器 以 及 将 值 写 到 随机 访问 存储 器 。 每 个 时 钟 周期 ， 程 序 计 数 器 都 会 装载 新 的 指令 地 
址 。 只 有 在 执行 整数 运算 指令 时 ， 才 会 装载 条 件 码 寄存 器 。 只 有 在 执行 rmmovq、pushq 
或 call 指令 时 ， 才 会 写 数据 内 存 。 寄 存 器 文件 的 两 个 写 端 口 允 许 每 个 时 钟 周 期 更 新 两 个 
程序 寄存 器 ， 不 过 我 们 可 以 用 特殊 的 寄存 器 ID 0xF 作为 端口 地 址 ， 来 表明 在 此 端口 不 应 
该 执行 写 操作 。 

要 控制 处 理 器 中 活动 的 时 序 ， 只 需要 寄存 器 和 内 存 的 时 钟 控制 。 硬 件 获得 了 如 图 418 一 图 
4-21 的 表 中 所 示 的 那些 赋值 顺序 执行 一 样 的 效果 ， 即 使 所 有 的 状态 更 新 实际 上 同时 发 生 ， 
且 只 在 时 钟 上 升 开始 下 一 个 周期 时 。 之 所 以 能 保持 这 样 的 等 价 性 ， 是 由 于 Y86-64 指令 集 
的 本 质 ， 因 为 我 们 遵循 以 下 原则 组 织 计算 : 

原则 : 从 不 回 读 

处 理 器 从 来 不 需要 为 了 完成 一 条 指令 的 执行 而 去 读 由 该 指令 更 新 了 的 状态 。 

这 条 原则 对 实现 的 成 功 来 说 至 关 重 要 。 为 了 说 明 问题 ， 假 设 我 们 对 pusha 指令 的 实现 
是 先 将 srsp 减 8， 再 将 更 新 后 的 srsp 值 作为 写 操作 的 地 址 。 这 种 方法 同 前 面 所 说 的 那个 
原则 相 违 背 。 为 了 执行 内 存 操作 ， 它 需要 先 从 寄存 器 文件 中 读 更 新 过 的 栈 指针 。 然 而 ， 我 
们 的 实现 (图 4-20) 产 生出 减 后 的 栈 指 针 值 ， 作 为 信号 valE， 然 后 再 用 这 个 信号 既 作 为 寄 
存 器 写 的 数据 ， 也 作为 内 存 写 的 地 址 。 因 此 ， 在 时 钟 上 升 开始 下 一 个 周期 时 ， 处 理 器 就 可 
以 同时 执行 寄存 器 写 和 内 存 写 了 。 

再 举 个 例子 来 说 明 这 条 原则 ， 我 们 可 以 看 到 有 些 指令 (整数 运算 ) 会 设置 条 件 码 ， 有 些 
指令 ( 跳 转 指令 ) 会 读 取 条 件 码 ， 但 没有 指令 必须 既 设 置 又 读 取 条 件 码 。 虽 然 要 到 时 钟 上 升 
开始 下 一 个 周期 时 ， 才 会 设置 条 件 码 ， 但 是 在 任何 指令 试图 读 之 前 ， 它 们 都 会 更 新 。 

以 下 是 汇编 代码 ， 左 边 列 出 的 是 指令 地 址 ， 图 4-25 给 出 了 SEQ 硬件 如 何 处 理 其 中 第 
3 和 第 4 行 指令 ， 

1 0x000 irmovq $Ox100,%rbx  # %rbx <-- Ox100 


Ox00a: irmovd $0Ox200,%rdx  # %rdx <-- Ox200 
0x014: addq %rdx,%rbx # %rbx <-- Ox300 CC <-- 000 
Ox016: je dest # Not taken 


OxO1f: rmmovd %rbx,0(%rdx) # M[Ox200] <-- 0x300 
Ox029: dest: halt 

标号 为 1~4 的 各 个 图 给 出 了 4 个 状态 单元 ， 还 有 组 合 逻 辑 ， 以 及 状态 单元 之 间 的 连 
接 。 组 合 逻 辑 被 条 件 码 寄存 器 环绕 着 ， 因 为 有 的 组 合 逻辑 (例如 ALU) 产 生 输入 到 条 件 码 
寄存 器 ， 而 其 他 部 分 (例如 分 支 计算 和 PC 选择 逻辑 ) 又 将 条 件 码 寄存 器 作为 输入 。 图 中 寄 


本 全 和 本 也 





存 器 文件 和 数据 内 存 有 独立 的 读 连 接 和 写 连 接 ， 因 为 读 操 作 沿 着 这 些 单元 传播 ， 就 好 像 它 
们 是 组 合 逻辑 ， 而 写 操作 是 由 时 钟 控 制 的 。 
<- 周期 1 周期 2 周期 3 周期 4 
时 钟 


D go d@ 












周期 1: 
周期 2: 


Ox000: irmovq $sx100,%rbx # gsrbx <-- Ox100 








0x00a: irmovgq $0x200,%rbx # %rdx <-- 0x200 















周期 3: | 0x014 addq %rdx, Srbx # Srbx <-- 0x300 CC <-- 000 
用 期 4 OSI 
周期 5: | 0x01f: rmmovq srbx,0(srdx) # M[Ox200] <-- 0x300 

@ 周 期 3 开始 时 @ 周 期 3 结束 时 








读 





内 
| 
下 





图 4-25 跟踪 SEQ 的 两 个 执行 周期 。 每 个 周期 开始 时 ， 状 态 单元 (程序 计数 器 、 条 件 码 寄存 
器 、 寄 存 器 文件 以 及 数据 内 存 ) 是 根据 前 一 条 指令 设置 的 。 信 号 传播 通过 组 合 逻 辑 ， 
创建 出 新 的 状态 单元 的 值 。 在 下 一 个 周期 开始 时 ， 这 些 值 会 被 加 载 到 状态 单元 中 


图 4-25 中 的 不 同 颜色 的 代码 表明 电路 信号 是 如 何 与 正在 被 执行 的 不 同 指令 相 联系 的 。 
我 们 假设 处 理 是 从 设置 条 件 码 开始 的 ， 按 照 ZF、SF 和 OF 的 顺序 ， 设 为 100。 在 时 钟 周 
期 3 开始 的 时 候 ( 点 1)， 状 态 单元 保持 的 是 第 二 条 irmovq 指令 ( 表 中 第 2 行 ) 更 新 过 的 状 
态 ， 该 指令 用 浅 灰 色 表 示 。 组 合 逻 辑 用 白色 表示 ， 表 明 它 还 没有 来 得 及 对 变化 了 的 状态 做 
出 反应 。 时 钟 周期 开始 时 ， 地 址 0x014 载 人 程序 计数 器 中 。 这 样 就 会 取出 和 处 理 addq 指 
令 ( 表 中 第 3 行 )。 值 沿 着 组 合 逻 辑 流动 ， 包 括 读 随机 访问 存储 器 。 在 这 个 周期 末尾 (点 2)， 
组 合 逻 辑 为 条 件 码 产 生 了 新 的 值 (000)， 程 序 寄存 器 $rbx 的 更 新 值 ， 以 及 程序 计数 器 的 新 





值 C0x016) 。 在 此 时 ， 组 合 逻 辑 已 经 根据 addq 指令 被 更 新 了 ,但 是 状态 还 是 保持 着 第 二 
条 irmovq 指令 (用 浅 灰 色 表 示 ) 设 置 的 值 。 

当时 钟 上 升 开始 周期 4 时 (点 3)， 会 更 新 程序 计数 器 、 寄 存 器 文件 和 条 件 码 寄存 器 ， 
因此 我 们 用 蓝 色 来 表示 ， 但 是 组 合 逻 辑 还 没有 对 这 些 变化 做 出 反应 ， 所 以 用 白色 表示 。 在 
这 个 周期 内 ， 会 取出 并 执行 je 指令 ( 表 中 第 4 行 )， 在 图 中 用 深 灰 色 表 示 。 因 为 条 件 码 ZF 
为 0， 所 以 不 会 选择 分 支 。 在 这 个 周期 末尾 (点 4)， 程 序 计 数 器 已 经 产生 了 新 值 0x01f。 
组 合 逻辑 已 经 根据 je 指令 (用 深 灰 色 表 示 ) 被 更 新 过 了 ， 但 是 直到 下 个 周期 开始 之 前 ， 状 
态 还 是 保持 着 adqq 指令 (用 蓝 色 表示 ) 设 置 的 值 。 

如 此 例 所 示 ， 用 时 钟 来 控制 状态 单元 的 更 新 ， 以 及 值 通过 组 合 逻 辑 来 传播 ， 足 够 控制 
我 们 SEQ 实现 中 每 条 指令 执行 的 计算 了 。 每 次 时 钟 由 低 变 高 时 ， 人 处理 器 开始 执行 一 条 新 


指令 。 


4.3.4 ”SEQ 阶段 的 实现 


本 节 会 设计 实现 SEQ 所 需要 的 控制 逻辑 块 的 HCL 描述 。 完 整 的 SEQ 的 HCL 描述 请 
参见 网 络 旁 注 ARCH:HCL。 在 此 ， 我 们 给 出 一 些 例子 ， 而 其 他 的 作为 练习 题 。 建 议 你 做 
做 这 些 练习 来 检验 你 的 理解 ， 即 这 些 块 是 如 何 与 不 同 指令 的 计算 需求 相 联系 的 。 

我 们 没有 讲 的 那 部 分 SEQ 的 HCL 描述 ， 是 不 同 整数 和 布尔 信号 的 定义 ， 它 们 可 以 作 
为 HCL 操作 的 参数 。 其 中 包括 不 同 硬件 信号 的 名 字 ， 以 及 不 同 指令 代码 、 功 能 码 、 寄 存 
器 名 字 、ALU 操作 和 状态 码 的 常数 值 。 只 列 出 了 那些 在 控制 逻辑 中 必须 被 显 式 引用 的 常 
数 。 图 4-26 列 出 了 我 们 使 用 的 常数 。 按 照 习 惯 ， 常 数值 都 是 大 写 的 。 


值 ( 十 六 进 制 ) 





halt 指令 的 代码 
nop 指令 的 代码 
rrmovq 指令 的 代码 
irmovq 指令 的 代码 
rmmovq 指令 的 代码 
mrmovq 指令 的 代码 
整数 运算 指令 的 代码 
跳 转 指令 的 代码 
call 指令 的 代码 
ret 指令 的 代码 
pushq 指令 的 代码 
popq 指令 的 代码 
默认 功能 码 


% rsp 的 寄存 器 ID 
表明 没有 寄存 器 文件 访问 
加 法 运算 的 功能 

QO 正常 操作 状态 码 

@ 地 址 异常 状态 码 

图 非法 指令 异常 状态 码 
@halt 状态 码 


图 4-26 HCL 描述 中 使 用 的 常数 值 。 这 些 值 表示 的 是 指令 、 功 能 码 、 寄 存 器 ID、 
ALU 操作 和 状态 码 的 编码 


除了 图 4-18 一 图 4-21 中 所 示 的 指令 以 外 ， 还 包括 了 对 nop 和 halt 指令 的 处 理 。nop 


IHALT 
INOP 
IRRMOVOQ 
IIRMOVO 
IRMMOVQ 
IMRMOVQ 
IOPL 
工 JXX 
ICALL 
IRET 
IPUSHQ 
IPOPQ 
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FNONE 


RRSP 
RNONE 
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ALUADD 
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SADR 
SINS 
SHLT 
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指令 只 是 简单 地 经 过 各 个 阶段 ， 除 了 要 将 PC 加 1， 不 进行 任何 处 理 。halt 指令 使 得 处 理 
器 状态 被 设置 为 HLT， 导 致 处 理 器 停止 运行 。 

1. 取 指 阶段 

如 图 4-27 所 示 ， 取 指 阶段 包括 指令 内 存 硬件 单元 。 以 PC 作为 第 一 个 字 节 ( 字 节 0) 的 
地 址 ， 这 个 单元 一 次 从 内 存 读 出 10 个 字 icode ifun rA rB valC valP 


节 。 第 一 个 字 节 被 解释 成 指令 字 节 ，( 标 
号 为 “Split” 的 单元 ) 分 为 两 个 4 位 的 
数 。 然 后 ， 标 号 为 “icode” 和 “ifun?” 
的 控制 逻辑 块 计算 指令 和 功能 码 ， 或 者 
使 之 等 于 从 内 存 读 出 的 值 ， 或 者 当 指 令 
地 址 不 合法 时 (由 信号 imem error 指 
明 )， 使 这 些 值 对 应 于 nop 指令 。 根 据 
icode 的 值 ， 我 们 可 以 计算 三 个 一 位 的 
信号 (用 虚线 表示 ) : 

instr valid: 这 个 字 节 对 应 于 一 
个 合法 的 Y86-64 指令 吗 ? 这 个 信号 用 来 
发 现 不 合法 的 指令 。 

need_regids: 这 个 指令 包括 一 个 图 4-27 SEQ 的 取 指 阶段 。 以 PC 作为 起 始 地 址 ， 从 指令 





寄存 器 指示 符 字 节 吗 ? 内 存 中 读 出 10 个 字 节 。 根 据 这 些 字 节 ， 我 们 
need valc， 这 个 指令 包括 一 个 党 产生 出 各 个 指令 字段 。PC 增加 模块 计算 信和 号 
数字 吗 ? 
( 当 指 令 地 址 越界 时 会 产生 的 ) 信 号 instr_valid 和 ijmem error 在 访 存 阶段 被 用 来 
产生 状态 码 。 


让 我 们 再 来 看 一 个 例子 ，need regids 的 HCL 描述 只 是 确定 了 icode 的 值 是 否 为 一 
条 带 有 寄存 器 指示 值 字 节 的 指令 。 


bool need_regids = 
icode in { IRRMOVQ, IOPQ, IPUSHQ, IPOPQ, 
IIRMOVQ, IRMMOVQ, IMRMOVQ }; 





SS 练习 题 4.19 写 出 SEQ 实现 中 信号 need valC 的 HCL 代码 。 

如 图 4-27 所 示 ， 从 指令 内 存 中 读 出 的 剩 下 9 个 字 节 是 寄存 器 指示 符 字 节 和 常数 字 
的 组 合 编码 。 标 号 为 “Align” 的 硬件 单元 会 处 理 这 些 字 节 ， 将 它们 放 人 寄存 器 字段 和 
常数 字 中 。 当 被 计算 出 的 信号 need regids 为 1 时， 字 节 1 被 分 开 装 人 寄存 器 指示 符 
rA 和 rB 中 。 否 则 ， 这 两 个 字段 会 被 设 为 0xF(RNONE)， 表 明 这 条 指令 没有 指明 寄存 器 。 
回想 一 下 (图 4-2)， 任 何 只 有 一 个 寄存 器 操作 数 的 指令 ， 寄 存 器 指示 值 字 节 的 另 一 个 字 
段 都 设 为 0xF(RNONE) 。 因 此 ， 可 以 将 信号 rA 和 rB 看 成 ， 要么 放 着 我 们 想 要 访问 的 寄 
存 器 ， 要 么 表明 不 需要 访问 任何 寄存 器 。 这 个 标号 为 “Align” 的 单元 还 产生 常数 字 
valC。 根 据 信 号 need_regids 的 值 ， 要 么 根据 字 节 1 一 8 来 产生 valC， 要 么 根据 字 节 2~ 
9 来 产生 。 

PC 增加 器 硬件 单元 根据 当前 的 PC 以 及 两 个 信号 need_regids 和 need valc 的 值 ， 
产生 信号 valP。 对 于 PC 值 p、need regids 值 r 以 及 need valc 值 i, 增加 器 产生 值 
PU 
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2. 译 码 和 写 回 阶段 

图 4-28 给 出 了 SEQ 中 实现 译 码 和 写 回 阶段 的 逻辑 的 详细 情况 。 把 这 两 个 阶段 联系 在 
一 起 是 因为 它们 都 要 访问 寄存 器 文件 。 

寄存 器 文件 有 四 个 端口 。 它 支持 同时 进行 两 个 读 ( 在 端口 A 和 B 上 ) 和 两 个 写 ( 在 端口 
E 和 M 上 )。 每 个 端口 都 有 一 个 地 址 连接 和 一 个 数据 Cnd valA valB valM valE 
连接 ， 地 址 连接 是 一 个 寄存 器 ID， 而 数据 连接 是 一 
组 64 根 线路 ， 既 可 以 作为 寄存 器 文件 的 输出 字 ( 对 读 
端口 来 说 ) ， 也 可 以 作为 它 的 输入 字 ( 对 写 端 口 来 说 ) 。 
两 个 读 端 口 的 地 址 输入 为 srcA 和 srcB， 而 两 个 写 端 
口 的 地 址 输入 为 dstE 和 dstM。 如 果 某 个 地 址 端口 上 
的 值 为 特殊 标识 符 0xF(RNONE)， 则 表明 不 需要 访问 





A 





B 






寄存 器 文件 


dstE dstM srcA srcB 





寄存 器 。 
根据 指令 代码 icode 以 及 寄存 器 指示 值 rA 和 icode rA IrB 

rB， 可 能 还 会 根据 执行 阶段 计算 出 的 cnd 条 件 信 号 ， 图 428 ”SEQ 的 译 码 和 写 回 阶段 。 指 令 

图 4-28 底部 的 四 个 块 产 生出 四 个 不 同 的 寄存 器 文件 的 字段 译 码 ， 产 生 寄 存 器 文件 使 用 

寄存 器 ID。 寄 存 器 ID srca 表明 应 该 读 哪 个 寄存 器 以 的 四 个 地 址 (两 个 读 和 两 个 写 ) 的 

产生 valA。 所 需要 的 值 依赖 于 指令 类 型 ， 如 图 4-18~~ WN re SS 
中 读 出 的 值 成 为 信号 valA 和 

图 4-21 中 译 码 阶段 第 一 行 中 所 示 。 将 所 有 这 些 条 目 都 valB。 两 个 写 回 值 valE 和 

整合 到 一 个 计算 中 就 得 到 下 面 的 srca 的 HCL 描述 valM 作 为 写 操 作 的 数据 


(回想 RRSP 是 srsp 的 寄存 器 ID): 


word srcA = [ 
icode in { IRRMOVQ, IRMMOVQ, IOPQ, IPUSHQ } : rA 
icode in { IPOPQ, IRET } : RRSP; 
1 : RNONE; # Don't need register 

由 

庆 练习 题 4.20 寄存 器 信号 srcB 表明 应 该 读 哪 个 寄存 器 以 产生 信号 valB。 所 需要 的 
值 如 图 4-18 一 图 4-21 中 译 码 阶段 第 二 步 所 示 。 写 出 srcB 的 HCL 代码。 
寄存 器 ID dstE 表明 写 端 口 人 计算 出 来 的 值 valE 将 放 在 那里 。 

图 4-18 一 图 4-21 写 回 阶段 第 一 步 表 明了 这 一 点 。 如 果 我 们 暂时 忽略 条 件 移动 指令 ， 综 合 所 

有 不 同 指令 的 目的 寄存 器 ， 就 得 到 下 面 的 dstE 的 HCL 描述 : 

”# WARNING: Conditional move not implemented correctly here 

word dstE = [ 
icode in { IRRMOVQ } : rB 
icode in { IIRMOVQ, IOPQ} : rB 
icode in { IPUSHQ, IPOPQ, ICALL, IRET } : RRSP; 
1 : RNONE; # Don't write any register 

ES 

我 们 查看 执行 阶段 时 ， 会 重新 审视 这 个 信号 ， 看 看 如 何 实现 条 件 传送 。 

ES 练习 题 4.21 寄存 器 ID dstM 表明 写 端口 M 的 目的 寄存 器 ， 从 内 存 中 读 出 来 的 值 
valM 将 放 在 那里 ， 如 图 4-18 一 图 4-21 中 写 回 阶段 第 二 步 所 示 。 写 出 dstM 的 HCL 
代码 。 

让 | 练习 题 4.22 只 有 popq 指令 会 同时 用 到 寄存 器 文件 的 两 个 写 端口 。 对 于 指令 popq 





srsp， 忆 和 M 两 个 写 端口 会 用 到 同一 个 地 址 ， 但 是 写 入 的 数据 不 同 。 为 了 解决 这 个 
冲突 ， 必 须 对 两 个 写 端口 设立 一 个 优先 级 ， 这 样 一 来 ， 当 同一 个 周期 内 两 个 写 端 口 都 
试图 对 一 个 寄存 器 进行 写 时 ， 只 有 和 较 高 优先 级 端口 上 的 写 才 会 发 生 。 那 么 要 实现 练习 
题 4.8 中 确定 的 行为 ， 哪 个 端口 该 具有 和 较 高 的 优先 级 呢 ? 
3. 执行 阶段 Cnd valE 
执行 阶段 包括 算术 /逻辑 单元 (ALU) 。 这 个 单 
元 根据 alufun 信和 号 的 设置 ， 对 输入 alua 和 aluB 
执行 ADD、SUBTRACT、AND 或 EXCLUSIVE- 
OR 运算 。 如 图 4-29 所 示 ， 这 些 数 据 和 控制 信号 
是 由 三 个 控制 块 产生 的 。ALU 的 输出 就 是 valE 








信号 。 
在 图 4-18 一 图 4-21 中 ， 执 行 阶段 的 第 一 步 就 
是 每 条 指令 的 ALU 计算 。 列 出 的 操作 数 aluB 在 icode ifun valC valA valB 


前 面 ， 后 面 是 aluA， 这 样 是 为 了 保证 subq 指令 图 4-29 SEQ 执行 阶段 。ALU 要 么 为 整数 


1B 注 ]A。 可 以 看 到 ， 仿 的 类 型 ， 运算 指令 执行 操作 ， 要 么 作为 加 法 
是 valB 减 去 valA。 可 以 看 到 ， 根 据 指令 的 类 型 人 


aluA 的 值 可 以 是 valRA、valC， 或 者 是 一 8 或 十 8。 寄存 器 。 检 测 条 件 码 的 值 ， 判 断 是 
因此 我 们 可 以 用 下 面 的 方式 来 表达 产生 aluA 的 控 否 该 选择 分 支 
制 块 的 行为 : 


word aluA = [ 
icode in { IRRMOVQ, IOPQ } : valA; 
icode in { IIRMOVQ, IRMMOVQ, IMRMOVQ } : valC; 
icode in { ICALL, IPUSHQ } : -8; 
icode in { IRET, IPOPQ } : 8; 
# Other instructions don't need ALU 
Ls 
练习 题 4. 23 ”根据 图 4-18~ 图 4-21 中 执行 阶段 第 一 步 的 第 一 个 操作 数 ， 写 出 SEQ 中 
信号 alLuB 的 HCL 描述 。 
观察 ALU 在 执行 阶段 执行 的 操作 ， 可 以 看 到 它 通 常 作为 加 法 器 来 使 用 。 不 过 ， 对 于 
oPqg 指令 ， 我 们 希望 它 使 用 指令 ifun 字段 中 编码 的 操作 。 因 此 ， 可 以 将 ALU 控制 的 
HCL 描述 写成 : 
word alufun = [ 
icode == IOPQ : ifun; 
1 : ALUADD; 
J 
执行 阶段 还 包括 条 件 码 寄存 器 。 每 次 运行 时 ，ALU 都 会 产生 三 个 与 条 件 码 相关 的 信 
号 一 一 零 、 符 号 和 溢出 。 不 过 ， 我 们 只 希望 在 执行 oPq 指令 时 才 设 置 条 件 码 。 因 此 产生 了 
一 个 信号 set_cc 来 控制 是 否 该 更 新 条 件 码 寄存 器 : 
bool set_cc = icode in { IOPQ }; 


标号 为 “cond” 的 硬件 单元 会 根据 条 件 码 和 功能 码 来 确定 是 否 进行 条 件 分 支 或 者 条 件 
数据 传送 (图 4-3)。 它 产生 信号 cnda， 用 于 设置 条 件 传送 的 dstE， 也 用 在 条 件 分 支 的 下 一 
个 PC 逻辑 中 。 对 于 其 他 指令 ， 取 决 于 指令 的 功能 码 和 条 件 码 的 设置 ，cna 信和 号 可 以 被 设 
置 为 1 或 者 0。 但 是 控制 逻辑 会 忽略 它 。 我 们 省 略 这 个 单元 的 详细 设计 。 
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及 练习 题 4. 24 条 件 传送 指令 (简称 cmovXX) 的 指令 代码 为 ITIRRMOVO。 如 图 4-28 所 示 ， 
我 们 可 以 用 执行 阶段 中 产生 的 cnd 信号 实现 这 
些 指令 。 修 改 dstE 的 HCL 代码 以 实现 这 些 
指令 
4. 访 存 阶段 | 
访 存 阶段 的 任务 就 是 读 或 者 写 程序 数据 。 如 nswvaid | 

图 4-30 所 示 ， 两 个 控制 块 产生 内 存 地 址 和 内 存 输 入 menero 

数据 (为 写 操作 ) 的 值 。 男 外 两 个 块 产生 表明 应 该 执 

行 读 操作 还 是 写 操作 的 控制 信号 。 当 执行 读 操作 时 ， 

数据 内 存 产 生 值 valM。 

4-18 一 图 4-21 的 访 存 阶段 给 出 了 每 个 指令 






icode valE valA valP 
类 型 所 需要 的 内 存 操作 。 可 以 看 到 内 存 读 和 写 的 有 
地址 总 是 valB 或 vala。 这 个 块 用 HCL 措 述 图 430 SEQ 访 存 阶段 。 数 据 内 存 且 可 以 
Be ee 写 ， 也 可 以 读 内 存 的 值 。 从 内 存 中 


就 是 读 出 的 值 就 形成 了 信号 valM 
word mem_addr = [ 
icode in { IRMMOVQ, IPUSHQ, ICALL, IMRMOVQ } : valE; 
icode in { IPOPQ, IRET } : valA; 
# Other instructions don't need address 
SY 练习 题 4.25 观察 图 4-18 一 图 4-21 所 示 的 不 同 指令 的 访 存 操作 ,我 们 可 以 看 到 内 存 
写 的 数据 总 是 valA 或 valP。 写 出 SEQ 中 信号 mem data 的 HCL 代码 。 
我 们 希望 只 为 从 内 存 读数 据 的 指令 设置 控制 信号 mem read， 用 HCL 代码 表示 就 是 : 


bool mem_read = icode in { IMRMOVQ, IPOPQ, IRET }; 


证 练习 题 4.26 我 们 希望 只 为 向 内 存 写 数据 的 指令 设置 控制 信 号 mem_write。 写 出 

SEQ 中 信号 mem write 的 HCL 代码 。 

访 存 阶段 最 后 的 功能 是 根据 取 值 阶段 产生 的 icode、imem | Srreorys instre _valid 值 
以 及 数据 内 存 产生 的 dmem_error 信号 ， 从 指令 执行 的 结果 来 计算 状态 码 Stat。 
练习 题 4.27 ” 写 出 Stat 的 HCL 代码 ， 产 生 四 个 

状态 码 SAOK、SADR、SINS 和 SHLT( 参 见 图 4 26)。 

5. 更 新 PC 阶段 

”SEQ 中 最 后 一 个 阶段 会 产生 程序 计数 器 的 新 值 
( 见 图 4-31) 。 如 图 4-18 一 图 4-21 中 最 后 步骤 所 示 ， 
依据 指令 的 类 型 和 是 否 要 选择 分 支 ， 新 的 PC 可 能 


4-31 SE PC a 令 代 
是 valC、valM 或 valP。 用 HCL 来 描述 这 个 选择 二 word & hh ae 


志 s 从 信号 V1C、WaIM 


就 是 ， 和 valP 中 选 出 下 一 个 PC 的 值 


word new_pc = [ 
# Call. Use instruction constant 
icode == ICALL : valC; 
# Taken branch. Use instruction constant 
icode == IJXX && Cnd : valC; 
# Completion of RET instruction. Use value from stack 








icode Cnd valC valM valPp 
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icode == IRET : valM; 
# Default: Use incremented PC 
1 alPs 
]; 
6. SEQ 小 结 
现在 我 们 已 经 浏览 了 Y86-64 处 理 器 的 一 个 完整 的 设计 。 可 以 看 到 ， 通 过 将 执行 每 条 
不 同 指令 所 需 的 步骤 组 织 成 一 个 统一 的 流程 ， 就 可 以 用 很 少量 的 各 种 硬件 单元 以 及 一 个 时 
钟 来 控制 计算 的 顺序 ， 从 而 实现 整个 处 理 器 。 不 过 这 样 一 来 ， 控 制 逻 辑 就 必须 要 在 这 些 单 
元 之 间 路 由 信号 ， 并 根据 指令 类 型 和 分 支 条 件 产 生 适 当 的 控制 信号 。 
SEQ 唯一 的 问题 就 是 它 太 慢 了 。 时 钟 必须 非常 慢 ， 以 使 信号 能 在 一 个 周期 内 传播 所 
有 的 阶段 。 让 我 们 来 看 看 处 理 一 条 ret 指令 的 例子 。 在 时 钟 周期 起 始 时 ， 从 更 新 过 的 PC 
开始 ， 要 从 指令 内 存 中 读 出 指令 ， 从 寄存 器 文件 中 读 出 栈 指针 ，ALU 将 栈 指针 加 8， 为 了 
得 到 程序 计数 器 的 下 一 个 值 ， 还 要 从 内 存 中 读 出 返回 地 址 。 所 有 这 一 切 都 必须 在 这 个 周期 
结束 之 前 完成 。 
这 种 实现 方法 不 能 充分 利用 硬件 单元 ， 因 为 每 个 单元 只 在 整个 时 钟 周 期 的 一 部 分 时 间 
内 才 被 使 用 。 我 们 会 看 到 引入 流水 线 能 获得 更 好 的 性 能 。 : 


4.4 ”流水 线 的 通用 原理 


在 试图 设计 一 个 流水 线 化 的 Y86-64 处 理 器 之 前 ， 让 我 们 先 来 看 看 流水 线 化 的 系统 的 
一 些 通用 属性 和 原理 。 对 于 曾经 在 自助 餐厅 的 服务 线 上 工作 过 或 者 开车 通过 自动 汽车 清洗 
线 的 人 ， 都 会 非常 熟悉 这 种 系统 。 在 流水 线 化 的 系统 中 ， 待 执行 的 任务 被 划分 成 了 若干 个 
独立 的 阶段 。 在 自助 餐厅 ， 这 些 阶 段 包 括 提供 沙拉 、 主 菜 、 甜 点 以 及 饮料 。 在 汽车 清洗 
中 ， 这 些 阶段 包括 喷 水 和 打 肥 皂 、 擦 洗 、 上 蜡 和 烘 于 。 通 常 都 会 允许 多 个 顾客 同时 经 过 系 
统 ， 而 不 是 要 等 到 一 个 用 户 完 成 了 所 有 从 头 至 尾 的 过 程 才 让 下 一 个 开始 。 在 一 个 典型 的 自 
助 餐厅 流水 线 上 ， 顾 客 按照 相同 的 顺序 经 过 各 个 阶段 ， 即 使 他 们 并 不 需要 某 些 菜 。 在 汽车 
清洗 的 情况 中 ， 当 前 面 一 辆 汽车 从 喷 水 阶段 进入 擦洗 阶段 时 ， 下 一 辆 就 可 以 进入 喷 水 阶段 
了 。 通 常 ， 汽 车 必须 以 相同 的 速度 通过 这 个 系统 ， 避 免 撞 车 。 

流水 线 化 的 一 个 重要 特性 就 是 提高 了 系统 的 吞吐 量 (throughput)， 也 就 是 单位 时 间 内 
服务 的 顾客 总 数 ， 不 过 它 也 会 轻微 地 增加 延迟 (latency)， 也 就 是 服务 一 个 用 户 所 需要 的 时 
间 。 例 如 ， 自 助 餐厅 里 的 一 个 只 需要 甜点 的 顾客 ， 能 很 快 通过 一 个 非 流水 线 化 的 系统 ， 只 
在 甜点 阶段 停留 。 但 是 在 流水 线 化 的 系统 中 ， 这 个 顾客 如 果 试 图 直接 去 甜点 阶段 就 有 可 能 
招致 其 他 顾客 的 愤怒 了 。 





4.4.1 计算 流水 线 


让 我 们 把 注意 力 放 到 计算 流水 线 上 来 ， 这 里 的 “顾客 ”就 是 指令 ， 每 个 阶段 完成 指令 
执行 的 一 部 分 。 图 4-32a 给 出 了 一 个 很 简单 的 非 流水 线 化 的 硬件 系统 例子 。 它 是 由 一 些 执 
行 计算 的 逻辑 以 及 一 个 保存 计算 结果 的 寄存 器 组 成 的 。 时 钟 信号 控制 在 每 个 特定 的 时 间 间 
隔 加 载 寄 存 器 。CD 播放 器 中 的 译 码 器 就 是 这 样 的 一 个 系统 。 输 入 信号 是 从 CD 表面 读 出 
的 位 ， 人 逻辑 电路 对 这 些 位 进行 译 码 ， 产 生 音 频 信 和 号。 图 中 的 计算 块 是 用 组 合 逻 辑 来 实现 
的 ， 意 味 着 信和 号 会 穿 过 一 系列 逻辑 门 ， 在 一 定时 间 的 延迟 之 后 ， 输 出 就 成 为 了 输入 的 某 个 
函数 。 
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时 钟 
a) 硬件 : 未 流水 线 化 的 


延迟 =320 ps 
吞吐 量 =3.12 GIPS 





下 小 
12 
I3 
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b) 流水 线 图 


图 4-32” 非 流水 线 化 的 计算 硬件 。 每 个 320ps 的 周期 内 ， 系 统 用 
300ps 计算 组 合 逻 辑 函 数 ，20ps 将 结果 存 到 输出 寄存 器 中 


在 现代 逻辑 设计 中 ， 电 路 延迟 以 微微 秒 或 皮 秒 (picosecond， 简 写成 “ps”) ， 也 就 是 
10“ 秒 为 单位 来 计算 。 在 这 个 例子 中 ， 我 们 假设 组 合 逻 辑 需 要 300ps， 而 加 载 寄 存 器 需要 
20ps。 图 4-32 还 给 出 了 一 种 时 序 图 ， 称 为 流水 线 图 (pipeline diagram)。 在 图 中 ， 时 间 从 
左 向 右 流动 。 从 上 到 下 写 着 一 组 操作 (在 此 称 为 II、I2 和 1I3)。 实 心 的 长 方形 表示 这 些 指 
令 执行 的 时 间 。 这 个 实现 中 ， 在 开始 下 一 条 指令 之 前 必须 完成 前 一 个 。 因 此 ， 这 些 方 框 在 
垂直 方向 上 并 没有 相互 重合。 下 面 这 个 公式 给 出 了 运行 这 个 系统 的 最 大 吞吐 量 : 


二 1 条 指令 _. 1000ps 、 
和 


我 们 以 每 秒 千 兆 条 指令 (GIPS)， 也 就 是 每 秒 十 亿 条 指令 ， 为 单位 来 描述 吞吐 量 。 从 
头 到 尾 执 行 一 条 指令 所 需要 的 时 间 称 为 延迟 (latency)。 在 此 系统 中 ， 延 迟 为 320ps， 也 就 
是 吞吐 量 的 倒数 。 
假设 将 系统 执行 的 计算 分 成 三 个 阶段 (A、B 和 C) ， 每 个 阶段 需要 100ps， 如 图 4-33 所 
100 ps 20 ps 100ps 20 ps 100 ps 20 ps 





延迟 = 360 ps 
吞吐 量 = 8.33 GIPS 








b) 流水 线 图 


图 4-33 三 阶段 流水 线 化 的 计算 硬件 。 计 算 被 划分 为 三 个 阶段 A、B 和 C。 每 经 过 
一 个 120ps 的 周期 ， 每 条 指令 就 行进 通过 一 个 阶段 
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示 。 然 后 在 各 个 阶段 之 间 放 上 流水 线 寄存 器 (pipeline register)， 这 样 每 条 指令 都 会 按照 三 
步 经 过 这 个 系统 ， 从 头 到 尾 需 要 三 个 完整 的 时 钟 周 期 。 如 图 4-33 中 的 流水 线 图 所 示 ， 只 
要 JI 从 A 进 入 B， 就 可 以 让 I2 进入 阶段 A 了 ， 依 此 类 推 。 在 稳定 状态 下 ， 三 个 阶段 都 应 
该 是 活动 的 ， 每 个 时 钟 周期 ， 一 条 指令 离开 系统 ， 一 条 新 的 进入 。 从 流水 线 图 中 第 三 个 时 
钟 周 期 就 能 看 出 这 一 点 ， 此 时 ，11 是 在 阶段 C，I2 在 阶段 B， 而 1I3 是 在 阶段 A。 在 这 个 系 
统 中 ， 我 们 将 时 钟 周 期 设 为 100 十 20 王 120ps， 得 到 的 吞吐 量 大 约 为 8. 33 GIPS。 因 为 处 理 
一 条 指令 需要 3 个 时 钟 周 期 ， 所 以 这 条 流水 线 的 延迟 就 是 3X120= 王 360ps。 我 们 将 系统 吞 
吐 量 提高 到 原来 的 8. 33/3.12 二 2.67 倍 ， 代 价 是 增加 了 一 些 硬 件 ， 以 及 延迟 的 少量 增加 
(360/320 二 1. 12)。 延 迟 变 大 是 由 于 增加 的 流水 线 寄存 器 的 时 间 开 销 。 


4. 4.2 流水 线 操作 的 详细 说 明 

为 了 更 好 地 理解 流水 线 是 怎样 工作 的 ， 让 我 们 来 详细 看 看 流水 线 计算 的 时 序 和 操作 。 
图 4-34 给 出 了 前 面 我 们 看 到 过 的 三 阶段 流水 线 ( 图 4-33) 
的 流水 线 图 。 就 像 流 水 线 图 上 方 指明 的 那样 ， 流 水 线 阶 
段 之 间 的 指令 转移 是 由 时 钟 信 号 来 控制 的 。 每 隔 120ps， 
信和 号 从 0 上 升 至 1， 开始 下 一 组 流水 线 阶 段 的 计算 。 





图 4-35 跟踪 了 时 刻 240 一 360 之 间 的 电路 活动 ， 0 120 240 360 480 600 
指令 I1 经 过 阶段 C， 了 2 经 过 阶段 B， 而 13 经 过 阶段 时 间 
A。 就 在 时 刻 240( 点 1) 时 钟 上 升 之 前 ， 阶 段 A 中 计算 图 434 三 阶段 流水 线 的 时 序 。 时 钟 
的 指令 I2 的 值 已 经 到 达 第 一 个 流水 线 寄存 器 的 输入 ， 信号 的 上 升 沿 控制 指令 从 一 
但 是 该 寄存 器 的 状态 和 输出 还 保持 为 指令 了 1 在 阶段 A 了 


中 计算 的 值 。 指 令 1 在 阶段 B 中 计算 的 值 已 经 到 达 第 Wn 


二 个 流水 线 寄存 器 的 输入 。 当 时 钟 上 升 时 ， 这 些 输入 被 加 载 到 流水 线 寄存 器 中 ， 成 为 寄 
存 器 的 输出 (点 2) 。 另 外 ， 阶 段 A 的 输入 被 设置 成 发 起 指令 13 的 计算 。 然 后 信号 传播 
通过 各 个 阶段 的 组 合 逻 辑 ( 点 3) 。 就 像 图 中 点 3 处 的 曲线 化 的 波 阵 面 (curved wavefront) 
表明 的 那样 ， 信 和 号 可 能 以 不 同 的 速率 通过 各 个 不 同 的 部 分 。 在 时 刻 360 之 前 ， 结 果 值 到 
达 流 水 线 寄 存 器 的 输入 (点 4)。 当 时 刻 360 时 钟 上 升 时 ， 各 条 指令 会 前 进 经 过 一 个 流水 
线 阶段 。 

从 这 个 对 流水 线 操作 详细 的 描述 中 ， 我 们 可 以 看 到 减缓 时 钟 不 会 影响 流水 线 的 行为 。 
信和 号 传播 到 流水 线 寄存 器 的 输入 ， 但 是 直到 时 钟 上 升 时 才 会 改变 寄存 器 的 状态 。 另 一 方 
面 ， 如 果 时 钟 运行 得 太 快 ， 就 会 有 灾难 性 的 后 果 。 值 可 能 会 来 不 及 通过 组 合 逻 辑 ， 因 此 当 
时 钟 上 升 时 ， 寄 存 器 的 输入 还 不 是 合法 的 值 。 

根据 对 SEQ 处 理 器 时 序 的 讨论 (4. 3. 3 节 ) ， 我 们 看 到 这 种 在 组 合 逻 辑 块 之 间 采 用 时 钟 
寄存 器 的 简单 机 制 ， 足 够 控制 流水 线 中 的 指令 流 。 随 着 时 钟 周 而 复 始 地 上 升 和 下 降 ， 不 同 
的 指令 就 会 通过 流水 线 的 各 个 阶段 ， 不 会 相互 干扰 。 


4.4.3 ”流水 线 的 局 限 性 


图 4-33 的 例子 给 出 了 一 个 理想 的 流水 线 化 的 系统 ， 在 这 个 系统 中 ,我们 可 以 将 计算 
分 成 三 个 相互 独立 的 阶段 ， 每 个 阶段 需要 的 时 间 是 原来 逻辑 需要 时 间 的 三 分 之 一 。 不 幸 的 
是 ， 会 出 现 其 他 一 些 因素 ， 降 低 流水 线 的 效率 。 


第 4 童 处 理 器 体系 结构 285 








时 间 120 pA 1 eo 
OQ) ©@O@@ 
中 时 间 = 239 


100 ps 20 ps 100 ps 20ps 100 ps 20ps 










@ 时 间 = 300 
100 ps 20 ps 
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图 4-35 流水 线 操作 的 一 个 时 钟 周期 。 在 时 刻 240( 点 1) 时 钟 上 升 之 前 ， 指 令 I 和 I2 已 经 完成 了 阶段 
B 和 人 A。 在 时 钟 上 升 后 ， 这 些 指 令 开始 传送 到 阶段 C 和 B， 而 指令 13 开始 经 过 阶段 A( 点 2 
和 3)。 就 在 时 钟 开始 再 次 上 升 之 前 ， 这 些 指 令 的 结果 就 会 传 到 流水 线 寄 存 器 的 输入 (点 4) 


1. 不 一 致 的 划分 

图 4-36 展示 的 系统 中 和 前 面 一 样 ， 我 们 将 计算 划分 为 了 三 个 阶段 ， 但 是 通过 这 些 阶 
段 的 延迟 从 50ps 到 150ps 不 等 。 通 过 所 有 阶段 的 延迟 和 仍然 为 300ps。 不 过 ， 和 运行 时 钟 的 
速率 是 由 最 慢 的 阶段 的 延迟 限制 的 。 流 水 线 图 表明 ， 每 个 时 钟 周 期 ， 阶 段 A 都 会 空闲 (用 
日 色 方 框 表示 )100ps， 而 阶段 C 会 空闲 50ps。 只 有 阶段 B 会 一 直 处 于 活动 状态 。 我 们 必 
须 将 时 钟 周期 设 为 150 十 20 二 170ps， 得 到 吞吐 量 为 5. 88 GIPS。 另 外 ， 由 于 时 钟 周 期 减 慢 








了 ， 延 迟 也 增加 到 了 510ps。 
50ps 20ps 150 ps 20ps 100 ps 20 ps 


p 
5.88 GIPS 





时 钟 
a ) 硬件 : 三 阶段 流水 线 ， 不 一 致 的 阶段 延迟 





b ) 流水 线 图 
图 4-36 由 不 一 致 的 阶段 延迟 造成 的 流水 线 技术 的 局 限 性 。 系 统 的 吞吐 量 受 最 慢 阶 段 的 速度 所 限制 


对 硬件 设计 者 来 说 ， 将 系统 计算 设计 划分 成 一 组 具有 相同 延迟 的 阶段 是 一 个 严峻 的 挑战 。 
通常 ， 处 理 器 中 的 某 些 硬件 单元 ， 如 ALU 和 内 存 ， 是 不 能 被 划分 成 多 个 延迟 较 小 的 单元 的 。 
这 就 使 得 创建 一 组 平衡 的 阶段 非常 困难 。 在 设计 流水 线 化 的 Y86-64 处 理 器 中 ， 我 们 不 会 过 于 关 
注 这 一 层次 的 细节 ， 但 是 理解 时 序 优化 在 实际 系统 设计 中 的 重要 性 还 是 非常 重要 的 。 

村 要 练习 题 4.28 假设 我 们 分 析 图 4-32 中 的 组 合 逻 辑 ， 认 为 它 可 以 分 成 6 个 块 ， 依 次 命 

名 为 A 一 FF， 延迟 分 别 为 80、30、60、50、70 和 10ps， 如 下 图 所 示 

80ps 30ps 60ps 50 ps 70 ps 10 ps 20 ps 





时 钟 


在 这 些 块 之 间 插 入 流水 线 寄 存 器 ， 就 得 到 这 一 设计 的 流水 线 化 的 版 本 。 根 据 在 哪 
里 插入 流水 线 寄存 嚣 ， 会 出 现 不 同 的 流水 线 深 度 ( 有 多 少 个 阶段 ) 和 最 大 吞吐 量 的 组 
合 。 假 设 每 个 流水 线 寄 存 器 的 延 认 为 20ps。 
A. 只 插入 一 个 寄存 器 ， 得 到 一 个 两 阶段 的 流水 线 。 要 使 吞吐 量 最 大 化 ， 该 在 哪里 插 
入 寄存 器 呢 ? 吞吐 量 和 延 遂 是 多 少 ? 
B. 要 使 一 个 三 阶段 的 流水 线 的 吞吐 量 最 大 化 ， 该 将 两 个 寄存 器 插 在 哪里 呢 ? 吞吐 量 
和 落座 是 多 少 ? 
C. 要 使 一 个 四 阶段 的 流水 线 的 吞吐 量 最 大 化 ， 该 将 三 个 寄存 器 插 在 哪里 呢 ? 吞吐 量 
和 延迟 是 多 少 ? 
D. 要 得 到 一 个 吞吐 量 最 大 的 设计 ， 至 少 要 有 几 个 阶段 ? 描述 这 个 设计 及 其 吞吐 量 和 延迟 。 
流水 线 过 深 ， 收 益 反而 下 降 
图 4-37 说 明了 流水 线 技术 的 另 一 个 局 限 性 。 在 这 个 例子 中 ， 我 们 把 计算 分 成 了 6 个 
阶段 ， 每 个 阶段 需要 50ps。 在 每 对 阶段 之 间 插 入 流水 线 寄存 器 就 得 到 了 一 个 六 阶段 流水 
线 。 这 个 系统 的 最 小 时 钟 周期 为 50 十 20 二 70ps， 吞 吐 量 为 14. 29 GIPS。 因 此 ， 通 过 将 流 


1 
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水 线 的 阶段 数 加 倍 ， 我 们 将 性 能 提高 了 14. 29/8. 33 王 1. 71。 虽 然 我 们 将 每 个 计算 时 钟 的 时 
间 缩 短 了 两 倍 ， 但 是 由 于 通过 流水 线 寄存 器 的 延迟 ， 吞 吐 量 并 没有 加 倍 。 这 个 延迟 成 了 流 
水 线 吞 吐 量 的 一 个 制约 因素 。 在 我 们 的 新 设计 中 ， 这 个 延迟 占 到 了 整个 时 钟 周期 
的 28.6%。 

50ps 20ps 50ps 20ps S50ps 20ps S50ps 20ps 50ps 20ps 50ps 20ps 


,| 组 合 | 所 国 反 [| 本 下 .| 组 合 


| 





时 钟 延迟 = 420 ps, 吞吐 量 = 14.29 GIPS 
图 4-37 由 开销 造成 的 流水 线 技术 的 局 限 性 。 在 组 合 逻 辑 被 分 成 较 小 的 块 时 ， 
由 寄存 器 更 新 引起 的 延迟 就 成 为 了 一 个 限制 因素 
为 了 提高 时 钟 频率 ， 现 代 处 理 器 采用 了 很 深 的 (15 或 更 多 的 阶段 ?流水 线 。 处 理 器 架构 师 
将 指令 的 执行 划分 成 很 多 非常 简单 的 步骤 ， 这 样 一 来 每 个 阶段 的 延迟 就 很 小 。 电 路 设计 者 小 
心地 设计 流水 线 寄存 器 ， 使 其 延迟 尽 可 能 得 小 。 芯 片 设计 者 也 必须 小 心地 设计 时 钟 传播 网 
络 ， 以 保证 时 钟 在 整个 芯片 上 同时 改变 。 所 有 这 些 都 是 设计 高 速 微 处 理 器 面临 的 挑战 。 
训练 习题 4.29 让 我 们 来 看 看 图 4-32 中 的 系统 ， 假 设 将 它 划分 成 任意 数量 的 流水 线 阶 
段 &， 每 个 阶段 有 相同 的 延迟 300/， 每 个 流水 线 寄存 器 的 延迟 为 20ps。 
A. 系统 的 延迟 和 吞吐 量 写成 的 函数 是 什么 ? 
B. 吞吐 量 的 上 限 等 于 多 少 ? 


4.4.4 带 反馈 的 流水 线 系统 


到 目前 为 止 ， 我 们 只 考虑 一 种 系统 ， 其 中 传 过 流水 线 的 对 象 ， 无 论 是 汽车 、 人 或 者 指 
令 ， 相 互 都 是 完全 独立 的 。 但 是 ， 对 于 像 x86-64 或 Y86-64 这 样 执行 机 器 程序 的 系统 来 
说 ， 相 邻 指令 之 间 很 可 能 是 相关 的 。 例 如 ， 考 虑 下 面 这 个 Y86-64 指令 序列 : 


irmovq $50, (ra 
2 addq Gra ， (rb 
号 mrmovq 100( Gar ), %rdx 


在 这 个 包含 三 条 指令 的 序列 中 ， 每 对 相 邻 的 指令 之 间 都 有 数据 相关 (data dependen- 
c)， 用 带 圈 的 寄存 器 名 字 和 它们 之 间 的 箭头 来 表示 。irmovq 指令 (第 1 行 ) 将 它 的 结果 存 
放 在 srax 中 ， 然 后 addq 指令 (第 2 行 ) 要 读 这 个 值 ; 而 addq 指令 将 它 的 结果 存放 在 $rbx 
中 ，mrmovd 指令 (第 3 行 ) 要 读 这 个 值 。 

另 一 种 相关 是 由 于 指令 控制 流 造成 的 顺序 相关 。 来 看 看 下 面 这 个 Y86-64 指令 序列 

loop: 
SUbq %rdx,%rbx 
jne targ 


jmp loop 
targ: 


| 

2 

3 

4 irmovg $10,%rdx 
要 

6 

halt 
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jne 指令 (第 3 行 ) 产 生 了 一 个 控制 相关 (control dependency) ， 因 为 条 件 测试 的 结果 会 
决定 要 执行 的 新 指令 是 irmovd 指令 (第 4 行 ) 还 是 halt 指令 (第 7 行 )。 在 我 们 的 SEQ 设 
计 中 ， 这 些 相 关 都 是 由 反馈 路 径 来 解决 的 ， 如 图 4-22 的 右边 所 示 。 这 些 反 馈 将 更 新 了 的 
寄存 器 值 向 下 传送 到 寄存 器 文件 ， 将 新 的 PC 值 向 下 传送 到 PC 寄存 器 。 

图 4-38 举例 说 明了 将 流水 线 引 人 含有 反馈 路 径 的 系统 中 的 危险 。 在 原来 的 系统 (图 4-38a) 
中 ， 每 条 指令 的 结果 都 反馈 给 下 一 条 指令 。 流 水 线 图 (图 和 38b) 就 说 明了 这 个 情况 ， 了 I 的 结果 成 
为 了 2 的 输入 ， 依 此 类 推 。 如 果 试图 以 最 直接 的 方式 将 它 转换 成 一 个 三 阶段 流水 线 (图 4-38c)， 
我 们 将 改变 系统 的 行为 。 如 图 4 38c 所 示 ，11 的 结果 成 为 4 的 输入 。 为 了 通过 流水 线 技术 加 速 
系统 ， 我 们 改变 了 系统 的 行为 。 


组 合 逻 辑 on 
I2 
I3 


时 钟 Se 


a) 硬件 : 未 流水 线 化 ， 带 反 馈 b) 流水 线 图 








时 间 





c) 硬件 : 带 反 馈 的 三 阶段 流水 线 d) 流水 线 图 


图 4-38 ”由 逻辑 相关 造成 的 流水 线 技 术 的 局 限 性 。 在 从 未 流水 线 化 的 带 反馈 的 系统 a 转化 到 流水 线 化 
的 系统 c 的 过 程 中 ， 我们 改变 了 它 的 计算 行为 ， 可 以 从 两 个 流水 线 图 (b 和 d) 中 看 出 来 
当 我 们 将 流水 线 技术 引入 Y86-64 处 理 器 时 ， 必 须 正 确 处理 反 馈 的 影响 。 很 明显 ， 像 
图 4-38 中 的 例子 那样 改变 系统 的 行为 是 不 可 接收 的 。 我 们 必须 以 某 种 方式 来 处 理 指令 间 
的 数据 和 控制 相关 ， 以 使 得 到 的 行为 与 ISA 定义 的 模型 相符 。 


4.5 Y86-64 的 流水 线 实现 

我 们 终于 准备 好 要 开始 本 章 的 主要 任务 一 一 设计 一 个 流水 线 化 的 Y86-64 处 理 器 。 首 
先 ， 对 顺序 的 SEQ 处 理 器 做 一 点 小 的 改动 ， 将 PC 的 计算 挪 到 取 指 阶段 。 然 后 ， 在 各 个 阶 
段 之 间 加 上 流水 线 寄存 器 。 到 这 个 时 候 ， 我 们 的 尝试 还 不 能 正确 处 理 各 种 数据 和 控制 相 
关 。 不 过 ， 做 一 些 修 改 ， 就 能 实现 我 们 的 目标 一 一 一 个 高 效 的 、 流 水 线 化 的 实现 Y86-64 
ISA 的 处 理 器 。 


4.5.1 SEQ+: 重新 安排 计算 阶段 


作为 实现 流水 线 化 设计 的 一 个 过 渡 步 又 ,我们 必须 稍微 调整 一 下 SEQ 中 五 个 阶段 的 
顺序 ， 使 得 更 新 PC 阶段 在 一 个 时 钟 周 期 开始 时 执行 ， 而 不 是 结束 时 才 执 行 。 只 需要 对 束 
体 硬件 结构 做 最 小 的 改动 ， 对 于 流水 线 阶 段 中 的 活动 的 时 序 ， 它 能 工作 得 更 好 。 我 们 称 这 











种 修改 过 的 设计 为 “SEQ 十 ”。 

我 们 移动 PC 阶段 ， 使 得 它 的 逻辑 在 时 钟 周 期 开始 时 活动 ， 使 它 计算 当前 指令 的 PC 
值 。 图 4-39 给 出 了 SEQ 和 SEQ 十 在 PC 计算 上 的 不 同 之 处 。 在 SEQ 中 (图 4-39a) ，PC 计 
算 发 生 在 时 钟 周期 结束 的 时 候 ， 根 据 当 前 时 钟 周期 内 计算 出 的 信号 值 来 计算 PC 寄存 器 的 
新 值 。 在 SEQ 十 中 (图 4-39b) ， 我 们 创建 状态 寄存 器 来 保存 在 一 条 指令 执行 过 程 中 计算 出 
来 的 信号 。 然 后 ， 当 一 个 新 的 时 钟 周 期 开始 时 ， 这 些 信和 号 值 通 过 同样 的 逻辑 来 计算 当前 指 
令 的 PC。 我 们 将 这 些 寄存 器 标号 为 “plIcode”、“pCnd” 等 等 ,来 指明 在 任 一 给 定 的 周期 ， 
它们 保存 的 是 前 一 个 周期 中 产生 的 控制 信和 号。 


PC 


FREE 


a) SEQ 的 新 PC 计算 b) SEQ+ 的 PC 选择 


图 4-39 ”移动 计算 PC 的 时 间 。 在 SEQ 十 中 ， 我们 将 计算 当前 状态 的 
程序 计数 器 的 值 作 为 指令 执行 的 第 一 步 
图 4-40 给 出 了 SEQ 十 硬件 的 一 个 更 为 详细 的 说 明 。 可 以 看 到 ， 其 中 的 硬件 单元 和 控 
制 块 与 我 们 在 SEQ 中 用 到 的 (图 4-23) 一 样 ， 只 不 过 PC 逻辑 从 上 面 (在 时 钟 周期 结束 时 活 
动 ) 移 到 了 下 面 (在 时 钟 周期 开始 时 活动 ) 。 


区 SEQ++ 中 的 PC 在 哪里 

SEQ 十 有 一 个 很 奇怪 的 特色 ， 那 就 是 没有 硬件 寄存 器 来 存放 程序 计数 器 。 而 是 根 
据 从 前 一 条 指令 保存 下 来 的 一 些 状 态 信 息 动态 地 计算 PC。 这 就 是 一 个 小 小 的 证 
明 一 一 我 们 可 以 以 一 种 与 ISA 隐 含 着 的 概念 模型 不 同 的 方式 来 实现 处 理 器 ， 只 要 处 理 
器 能 正确 执行 任意 的 机 器 语言 程序 。 我 们 不 需要 将 状态 编码 成 程序 员 可 见 的 状态 指定 
的 形式 ， 只 要 处 理 器 能 够 为 任意 的 程序 员 可 见 状 态 ( 例 如 程序 计数 器 ) 产 生 正 确 的 值 。 
在 创建 流水 线 化 的 设计 中 ， 我 们 会 更 多 地 使 用 到 这 条 原则 。5.7 节 中 描述 的 乱 序 (out- 
of-order) 处理 技术 ， 以 一 种 完全 不 同 于 机 器 级 程序 中 出 现 的 顺序 的 次 序 来 执行 指令 ， 
将 这 一 思想 发 挥 到 了 极致 。 


SEQ 到 SEQ 十 中 对 状态 单元 的 改变 是 一 种 很 通用 的 改进 的 例子 ， 这 种 改进 称 为 电路 
重 定 时 (circuit retiming)L68]。 重 定时 改变 了 一 个 系统 的 状态 表示 ， 但 是 并 不 改变 它 的 逻 
辑 行为 。 通 常用 它 来 平衡 一 个 流水 线 系统 中 各 个 阶段 之 间 的 延迟 。 
4.5.2 插入 流水 线 寄存 器 

在 创建 一 个 流水 线 化 的 Y86-64 处 理 器 的 最 初 尝试 中 ， 我 们 要 在 SEQ 十 的 各 个 阶段 之 
间 揪 和 流水线 寄存 器 ， 并 对 信和 号 重新 排列 ， 得 到 PIPE 一 处 理 器 ， 这 里 的 “一 ”代表 这 个 
。 处 理 器 和 最 终 的 处 理 器 设计 相 比 ， 性 能 要 差 一 点 。PIPE 一 的 抽象 结构 如 图 4-41 所 示 。 流 
， 水 线 寄 存 器 在 该 图 中 用 黑色 方 框 表 示 ， 每 个 寄存 器 包括 不 同 的 字段 ， 用 白色 方 框 表示 。 正 









icode Cnd valC valM valP 





”如 多 个 字段 表 明 的 那样 ， 每 个 流水 线 寄存 器 可 以 存放 多 个 字 节 和 字 。 同 两 个 顺序 处 理 器 的 


“硬件 结构 (图 4-23 和 图 4-40) 中 的 圆 角 方 框 不 同 ， 这 些 白 色 的 方 框 表 示 实 际 的 硬件 组 成 。 
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: instr_valid 


: imem_error 


译 码 
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(PC) : 





图 4-40 ”SEQ 十 的 硬件 结构 。 将 PC 计算 从 时 钟 周期 结束 时 移 到 了 开始 时 ， 使 之 更 适合 于 流水 线 


可 以 看 到 ，PIPE 一 使 用 了 与 顺序 设计 SEQ( 图 4-40) 几 乎 一 样 的 硬件 单元 , 但 是 有 流 
水 线 寄存 器 分 隔 开 这 些 阶段 。 两 个 系统 中 信和 号 的 不 同 之 处 在 4. 5. 3 节 中 讨论 。 

流水 线 寄存 器 按 如 下 方式 标号 : 

F 保存 程序 计数 器 的 预测 值 ， 稍 后 讨论 。 

D 位 于 取 指 和 译 码 阶段 之 间 。 它 保存 关于 最 新 取出 的 指令 的 信息 ， 即 将 由 译 码 阶 自 
进行 处 理 。 

E 位 于 译 码 和 执行 阶段 之 间 。 它 保存 关于 最 新 译 码 的 指令 和 从 寄存 器 文件 读 出 的 什 
的 信息 ， 即 将 由 执行 阶段 进行 处 理 。 





M 位 于 执行 和 访 存 阶段 之 间 。 它 保存 最 新 执行 的 指令 的 结果 ， 即 将 由 访 存 阶段 进行 
处 理 。 它 还 保存 关于 用 于 处 理 条 件 转移 的 分 支 条 件 和 分 支 目 标的 信息 。 

W 位 于 访 存 阶段 和 反馈 路 径 之 间 ， 反 馈 路 径 将 计算 出 来 的 值 提供 给 寄存 器 文件 写 ， 
而 当 完 成 ret 指令 时 ， 它 还 要 向 PC 选择 逻辑 提供 返回 地 址 。 


| we | em fe le 


数据 出 品 
数据 
存储 器 
数据 入 口 
ET 





le 





: 
feo] mE vo | van [ va [ooreloswlserlsed) 
| 1 _ lasrcAld_ 


: Predict 上 
: imem _error : PC 


instr_valid : 





图 4-41 PIPE 一 的 硬件 结构 ， 一 个 初始 的 流水 线 化 实现 。 通 过 往 SEQ 十 (图 4-40) 中 插入 流水 线 寄存 
器 ， 我 们 创建 了 一 个 五 阶段 的 流水 线 。 这 个 版 本 有 几 个 缺陷 ， 稍 后 就 会 解决 这 些 问 题 
图 4-42 表明 以 下 代码 序列 如 何 通过 我 们 的 五 阶段 流水 线 ， 其 中 注释 将 各 条 指令 标识 
为 JI~I5 以 便 引 用 


1 irmovgq  $1,Xrax # Il 
2 irmovdq $2,%rbx # I2 
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3 irmovd $3,%rcx # I3 
4 irmovq $4,%rdx # I4 
5 halt # I5 
irmovg $1,%rax # 工 1 
iTrmovVq $2 , hrbx #I2 
irmovg $3,%rcx #I3 
irmovg $4,%rdx # 工 4 
halt #I5 














图 4-42 指令 流通 过 流水 线 的 示例 


图 中 右边 给 出 了 这 个 指令 序列 的 流水 线 图 。 同 4.4 节 中 简单 流水 线 化 的 计算 单元 的 流 
水 线 图 一 样 ， 这 个 图 描述 了 每 条 指令 通过 流水 线 各 个 阶段 的 行进 过 程 ， 时 间 从 左 往 右 增 
大 。 上 面 一 条 数字 表明 各 个 阶段 发 生 的 时 钟 周期 。 例 如 ， 在 周期 1 取出 指令 IL， 然 后 它 开 
始 通过 流水 线 各 个 阶段 ， 到 周期 5 结束 后 ， 其 结果 写 人 寄存 器 文件 。 在 周期 2 取出 指令 
I2， 到 周期 6 结束 后 ， 其 结果 写 回 ， 以 此 类 推 。 在 最 下 面 ， 我 们 给 出 了 当 周 期 为 5 时 的 流 
水 线 的 扩展 图 。 此 时 ， 每 个 流水 线 阶 段 中 各 有 一 条 指令 。 

从 图 4-42 中 还 可 以 判断 我 们 画 处 理 器 的 习惯 是 合理 的 ， 这 样 ， 指 令 是 自 底 向 上 的 流 
动 的 。 周 期 5 时 的 扩展 图 表明 的 流水 线 阶段 ， 取 指 阶 段 在 底部 ， 写 回 阶段 在 最 上 面 ， 同 流 
水 线 硬件 图 (图 4-41) 表 明 的 一 样 。 如 果 看 看 流水 线 各 个 阶段 中 指令 的 顺序 ， 就 会 发 现 它们 
出 现 的 顺序 与 在 程序 中 列 出 的 顺序 一 样 。 因 为 正常 的 程序 是 从 上 到 下 列 出 的 ， 我 们 保留 这 
种 顺序 ， 证 流水 线 从 下 到 上 进行 。 在 使 用 本 书 附带 的 模拟 器 时 ， 这 个 习惯 会 特别 有 用 。 


4.5.3 对 信号 进行 重新 排列 和 标号 


顺序 实现 SEQ 和 SEQ 十 在 一 个 时 刻 只 处 理 一 条 指令 ， 因 此 诸如 valc、srcA 和 valE 
这 样 的 信号 值 有 唯一 的 值 。 在 流水 线 化 的 设计 中 ， 与 各 个 指令 相关 联 的 这 些 值 有 多 个 版 
本 ,会 随 着 指令 一 起 流 过 系统 。 例 如 ， 在 PIPE 一 的 详细 结构 中 ， 有 4 个 标号 为 “Stat” 的 
白色 方 框 ， 保 存 着 4 条 不 同 指 令 的 状态 码 ( 参 见 图 4-41)。 我 们 需要 很 小 心 以 确保 使 用 的 是 
正确 版 本 的 信和 号， 否则 会 有 很 严重 的 错误 ， 例 如 将 一 条 指令 计算 出 的 结果 存放 到 了 另 一 条 
指令 指定 的 目的 寄存 器 。 我 们 采用 的 命名 机 制 ， 通 过 在 信号 名 前 面 加 上 大 写 的 流水 线 寄存 








器 名 字 作 为 前 级 ， 存 储 在 流水 线 寄存 器 中 的 信号 可 以 唯一 地 被 标识 。 例 如 ，4 个 状态 码 可 
以 被 命名 为 D stat、E stat、M stat 和 由 stat。 我 们 还 需要 引用 某 些 在 一 个 阶段 内 刚 
刚 计算 出 来 的 信号 。 它 们 的 命名 是 在 信号 名 前 面 加 上 小 写 的 阶段 名 的 第 一 个 字母 作为 前 
级 。 以 状态 码 为 例 ， 可 以 看 到 在 取 指 和 访 存 阶段 中 标号 为 “Stat” 的 控制 逻辑 块 。 因 而 ， 
这 些 块 的 输出 被 命名 为 £_stat 和 m stat。 我 们 还 可 以 看 到 整个 处 理 器 的 实际 状态 Stat 
是 根据 流水 线 寄存 器 W 中 的 状态 值 ， 由 写 回 阶段 中 的 块 计算 出 来 的 。 


信号 M _ stat 和 m _ stat 的 差别 
在 命名 系统 中 ， 大 写 的 前 级 “D”、“E”、“M” 和 “W” 指 的 是 流水 线 寄存 器 ， 所 
以 M _ stat 指 的 是 流水 线 寄存 器 M 的 状态 码 字 段 。 小 写 的 前 级 “f”、“d”、“e”、“m” 
和 “w” 指 的 是 流水 线 阶 段 ， 所 以 m _ stat 指 的 是 在 访 存 阶段 中 由 控制 逻辑 块 产生 出 的 
状态 信号 。 
理解 这 个 命名 规则 对 理解 我 们 的 流水 线 化 处 理 器 的 操作 是 至 关 重 要 的 。 


SEQ 十 和 了 PIPE 一 的 译 码 阶段 都 产生 信和 号 dstE 和 dstM， 它 们 指明 值 valE 和 valM 的 目的 
寄存 器 。 在 SEQ 十 中 ， 我 们 可 以 将 这 些 信号 直接 连 到 寄存 器 文件 写 端口 的 地 址 输入 。 在 
PIPE 一 中 ， 会 在 流水 线 中 一 直 携 带 这 些 信 号 穿 过 执行 和 访 存 阶段 ， 直 到 写 回 阶段 才 送 到 寄存 
器 文件 (如 各 个 阶段 的 详细 描述 所 示 )。 我 们 这 样 做 是 为 了 确保 写 端口 的 地 址 和 数据 输入 是 来 
自 同一 条 指令 。 和 否则 ， 会 将 处 于 写 回 阶段 的 指令 的 值 写 人 ， 而 寄存 器 ID 却 来 自 于 处 于 译 码 
阶段 的 指令 。 作 为 一 条 通用 原则 ， 我 们 要 保存 处 于 一 个 流水 线 阶段 中 的 指令 的 所 有 信息 。 

PIPE 一 中 有 一 个 块 在 相同 表示 形式 的 SEQ 十 中 是 没有 的 ， 那 就 是 译 码 阶段 中 标号 为 
“Select A” 的 块 。 我 们 可 以 看 出 ， 这 个 块 会 从 来 自流 水 线 寄存 器 D 的 valP 或 从 寄存 器 文件 
A 端口 中 读 出 的 值 中 选择 一 个 ， 作 为 流水 线 寄存 器 EE 的 值 valA。 包 括 这 个 块 是 为 了 减少 要 
携带 给 流水 线 寄存 器 下 和 M 的 状态 数量 。 在 所 有 的 指令 中 ， 只 有 call 在 访 存 阶段 需要 valP 
的 值 。 只 有 跳 转 指令 在 执行 阶段 ( 当 不 需要 进行 跳 转 时 ) 需 要 valP 的 值 。 而 这 些 指 令 又 都 不 
需要 从 寄存 器 文件 中 读 出 的 值 。 因 此 我 们 合并 这 两 个 信和 号， 将 它们 作为 信号 vala 携带 穿 过 
流水 线 ， 从 而 可 以 减少 流水 线 寄存 器 的 状态 数量 。 这 样 做 就 消除 了 SEQ( 图 4-23) 和 SEQ 十 
(图 4-40) 中 标号 为 “Data” 的 块 ， 这 个 块 完 成 的 是 类 似 的 功能 。 在 硬件 设计 中 ， 像 这 样 仔细 
确认 信号 是 如 何 使 用 的 ， 然 后 通过 合并 信号 来 减少 寄存 器 状态 和 线路 的 数量 ， 是 很 常见 的 。 

如 图 4-41 所 示 ， 我 们 的 流水 线 寄存 器 包括 一 个 状态 码 stat 字段 ， 开 始 时 是 在 取 指 阶 
段 计算 出 来 的 ， 在 访 存 阶段 有 可 能 会 被 修改 。 在 讲 完 正常 指令 执行 的 实现 之 后 ， 我 们 会 在 
4. 5.6 节 中 讨论 如 何 实现 异常 事件 的 处 理 。 到 目前 为 止 我 们 可 以 说 ， 最 系统 的 方法 就 是 让 
与 每 条 指令 关联 的 状态 码 与 指令 一 起 通过 流水 线 ， 就 像 图 中 表明 的 那样 。 


4.5.4 预测 下 一 个 PC 


在 PIPE 一 设计 中 ， 我 们 采取 了 一 些 措施 来 正确 处 理 控制 相关 。 流 水 线 化 设计 的 目的 就 
是 每 个 时 钟 周期 都 发 射 一 条 新 指令 ， 也 就 是 说 每 个 时 钟 周 期 都 有 一 条 新 指令 进入 执行 阶段 并 
最 终 完 成 。 要 是 达到 这 个 目的 也 就 意味 着 吞吐 量 是 每 个 时 钟 周期 一 条 指令 。 要 做 到 这 一 点 ， 
我 们 必须 在 取出 当前 指令 之 后 ， 马 上 确定 下 一 条 指令 的 位 置 。 不 幸 的 是 ， 如 果 取 出 的 指令 是 
条 件 分 支 指令 ， 要 到 几 个 周期 后 ， 也 就 是 指令 通过 执行 阶段 之 后 ， 我 们 才能 知道 是 否 要 选择 
分 支 。 类 似 地 ， 如 果 取 出 的 指令 是 ret， 要 到 指令 通过 访 存 阶段 ， 才 能 确定 返回 地 址 。 

除了 条 件 转 移 指令 和 ret 以 外 ， 根 据 取 指 阶段 中 计算 出 的 信息 ， 我 们 能 够 确定 下 一 条 
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指令 的 地 址 。 对 于 call 和 jmp( 无 条 件 转移 ) 来 说 ， 下 一 条 指令 的 地 址 是 指令 中 的 常数 字 
valC， 而 对 于 其 他 指令 来 说 就 是 valP。 因 此 ， 通 过 预测 PC 的 下 一 个 值 ， 在 大 多 数 情况 
下 ， 我 们 能 达到 每 个 时 钟 周 期 发 射 一 条 新 指令 的 目的 。 对 大 多 数 指令 类 型 来 说 ， 我 们 的 预 
测 是 完全 可 靠 的 。 对 条 件 转 移 来 说 ， 我 们 既 可 以 预测 选择 了 分 支 ， 那 么 新 PC 值 应 为 
valC， 也 可 以 预测 没有 选择 分 支 ， 那么 新 PC 值 应 为 valP。 无 论 哪 种 情况 ,我 们 都 必须 
以 某 种 方式 来 处 理 预测 错误 的 情况 ， 因 为 此 时 已 经 取出 并 部 分 执行 了 错误 的 指令 。 我 们 会 
在 4. 5. 8 节 中 再 讨论 这 个 问题 。 

猜测 分 支 方向 并 根据 猜测 开始 取 指 的 技术 称 为 分 支 预测 。 实 际 上 所 有 的 处 理 器 都 采用 
了 某 种 形式 的 此 类 技术 。 对 于 预测 是 否 选择 分 支 的 有 效 策略 已 经 进行 了 广泛 的 研究 [46， 
2. 3 节 ]。 有 的 系统 花费 了 大 量 硬 件 来 解决 这 个 任务 。 我 们 的 设计 只 使 用 了 简单 的 策略 ， 
即 总 是 预测 选择 了 条 件 分 支 ， 因 而 预测 PC 的 新 值 为 valc。 


旁 注 | 其 他 的 分 支 预测 策略 

我 们 的 设计 使 用 总 是 选择 (always taken) 分支 的 预测 策略 。 研 究 表明 这 个 策略 的 成 
功率 大 约 为 60%[44，122]。 相 反 ， 从 不 选择 (never taken，NT) 策 略 的 成 功率 大 约 为 
40%。 稍 微 复 杂 一 点 的 是 反 向 选择 、 正 向 不 选择 (backward taken，forward not-taken， 
BTFNT) 的 策略 ， 当 分 支 地 址 比 下 一 条 地 址 低 时 就 预测 选择 分 支 ， 而 分 支 地 址 比较 高 
时 ， 就 预测 不 选择 分 支 。 这 种 策略 的 成 功率 大 约 为 65 中 。 这 种 改进 源 自 一 个 事实 ， 即 特 
环 是 由 后 向 分 支 结束 的 ， 而 循环 通常 会 执行 多 次 。 前 向 分 支 用 于 条 件 操 作 ， 而 这 种 选择 
的 可 能 性 较 小 。 在 家 庭 作 业 4.55 和 4.56 中 ， 你 可 以 修改 Y86-64 流水 线 处 理 器 来 实现 
NT 和 BTEFNT 分 支 预 测 策略 。 

正如 我 们 在 3. 6. 6 节 中 看 到 的 ， 分 支 预测 错误 会 极 大 地 降低 程序 的 性 能 ， 因 此 这 就 
促使 我 们 在 可 能 的 时 候 ， 要 使 用 条 件数 据 传 送 而 不 是 条 件 控 制 转移 。 


我 们 还 没有 讨论 预测 ret 指令 的 新 PC 值 。 同 条 件 转移 不 同 ， 此 时 可 能 的 返回 值 几 乎 
是 无 限 的 ， 因 为 返回 地 址 是 位 于 栈 顶 的 字 ， 其 内 容 可 以 是 任意 的 。 在 设计 中 ， 我 们 不 会 斌 
图 对 返回 地 址 做 任何 预测 。 只 是 简单 地 暂停 处 理 新 指令 ， 直 到 ret 指令 通过 写 回 阶段 。 在 
4. 5. 8 节 中 ， 我 们 将 回 过 来 讨论 这 部 分 的 实现 。 


使 用 栈 的 返回 地 址 预测 
对 大 多 数 程序 来 说 ， 预 测 返 回 值 很 容易 ， 因 为 过 程 调用 和 返回 是 成 对 出 现 的 。 大 多 
数 函 数 调 用 ， 会 返回 到 调用 后 的 那 条 指令 。 高 性 能 处 理 器 中 运用 了 这 个 属性 ， 在 取 指 单 
元 中 放 入 一 个 硬件 栈 ， 保 存 过 程 调 用 指令 产生 的 返回 地 址 。 每 次 执行 过 程 调 用 指令 时 ， 
都 将 其 返回 地 址 压 入 栈 中 。 当 取出 一 个 返回 指令 时 ， 就 从 这 个 栈 中 弹出 顶部 的 值 ， 作 为 ， 
预测 的 返回 值 。 同 分 支 预测 一 样 ， 在 预测 错误 时 必须 提供 一 个 恢复 机 制 ， 因 为 还 是 有 调用 
和 返回 不 匹配 的 时 候 。 通 常 ， 这 种 预测 很 可 靠 。 这 个 硬件 栈 对 程序 员 来 说 是 不 可 见 的 。 


PIPE 一 的 取 指 阶段 ， 如 图 4-41 底部 所 示 ， 负 责 预 测 PC 的 下 一 个 值 ， 以 及 为 取 指 选 
择 实 际 的 PC。 我 们 可 以 看 到 ， 标 号 为 “Predict PC” 的 块 会 从 PC 增加 器 计算 出 的 valP 
和 取出 的 指令 中 得 到 的 valc 中 进行 选择 。 这 个 值 存放 在 流水 线 寄存 器 下 中 ， 作 为 程序 计 
数 器 的 预测 值 。 标 号 为 “Select PC” 的 块 类 似 于 SEQ 十 的 PC 选择 阶段 中 标号 为 “PC” 的 
块 (图 4-40)。 它 从 三 个 值 中 选择 一 个 作为 指令 内 存 的 地 址 : 预测 的 PC， 对 于 到 达 流 水 线 








寄存 器 M 的 不 选择 分 支 的 指令 来 说 是 valP 的 值 (存储 在 寄存 器 M_ valRA 中 )， 或 是 当 ret 
指令 到 达 流 水 线 寄 存 器 W( 存 储 在 W_valM) 时 的 返回 地 址 的 值 。 


4.5.5 流水 线 冒 险 

PIPE 一 结构 是 创建 一 个 流水 线 化 的 Y86-64 处 理 器 的 好 开端 。 不 过 ， 回 忆 4.4.4 节 中 
的 讨论 ， 将 流水 线 技术 引入 一 个 带 反 馈 的 系统 ， 当 相 邻 指令 间 存 在 相关 时 会 导致 出 现 问 
题 。 在 完成 我 们 的 设计 之 前 ， 必 须 解决 这 个 问题 。 这 些 相 关 有 两 种 形式 : 1) 数 据 相 关 ， 下 
一 条 指令 会 用 到 这 一 条 指令 计算 出 的 结果 ; 2) 控 制 相 关 ， 一 条 指令 要 确定 下 一 条 指令 的 位 
置 ， 例 如 在 执行 跳 转 、 调 用 或 返回 指令 时 。 这 些 相 关 可 能 会 导致 流水 线 产生 计算 错误 ， 称 
为 冒险 (hazard) 。 同 相关 一 样 ， 冒 险 也 可 以 分 为 两 类 : 数据 冒险 (data hazard) 和 控制 冒险 
(control hazard) 。 我 们 首先 关心 的 是 数据 冒险 ， 然 后 再 考虑 控制 冒险 。 

图 4-43 描述 的 是 PIPE 一 处 理 器 处 理 progl 指令 序列 的 情况 。 假 设 在 这 个 例子 以 及 后 
面 的 例子 中 ， 程 序 寄 存 器 初始 时 值 都 为 0。 这 段 代 码 将 值 10 和 3 放 和 人 程序 寄存 器 srdx 和 
srax， 执 行 三 条 nop 指令 ， 然 后 将 寄存 器 $rdx 加 到 srax。 我 们 重点 关注 两 条 irmovq 指 
令 和 addq 指令 之 间 的 数据 相关 造成 的 可 能 的 数据 冒险 。 图 的 右边 是 这 个 指令 序列 的 流水 
线 图 。 图 中 突出 显示 了 周期 6 和 7 的 流水 线 阶段 。 流 水 线 图 的 下 面 是 周期 6 中 写 回 活动 和 
周期 7 中 译 码 活动 的 扩展 说 明 。 在 周期 7 开始 以 后 ， 两 条 irmovq 都 已 经 通过 写 回 阶段 ， 
所 以 寄存 器 文件 保存 着 更 新 过 的 srdx 和 %rax 的 值 。 因 此 ， 当 addaqa 指令 在 周期 7 经 过 译 
码 阶 段 时 ， 它 可 以 读 到 源 操作 数 的 正确 值 。 在 此 示例 中 ， 两 条 irmovq 指令 和 addq 指令 
之 间 的 数据 相关 没有 造成 数据 冒险 。 

# progl 和 
Ox000: irmovg $10,%rdx 
Ox00a: irmovd $3,%rax 
0x014: nop 

Ox015: nop 

Ox016: nop 

0x017: addq %rdx,%rax 
Ox019: halt 












em 


RI%rax]<— 3 








valA < R[%rdx] = 10 
valB<— R[%rax]= 3 


Es 






图 4-43 ”progl 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控制 。 在 周期 6 中 ,第 二 个 irmovq 将 结果 
写 和 寄存 器 $rax。addq 指令 在 周期 7 读 源 操作 数 ， 因 此 得 到 的 是 srdx 和 %rax 的 正确 值 





我 们 看 到 progl 通过 流水 线 并 得 到 正确 的 结果 ， 因 为 3 条 nop 指令 在 有 数据 相关 的 指 
令 之 间 创 造 了 一 些 延 迟 。 让 我 们 来 看 看 如 果 去 掉 这 些 nop 指令 会 发 生 些 什么 。 图 4-44 撒 
述 的 是 prog2 程序 的 流水 线 流 程 ， 在 两 条 产生 寄存 器 srdqx 和 srax 值 的 irmovq 指令 和 以 
这 两 个 寄存 器 作为 操作 数 的 addqa 指令 之 间 有 两 条 nop 指令 。 在 这 种 情况 下 ， 关 键 步骤 发 
生 在 周期 6， 此 时 aqqaq 指令 从 寄存 器 文件 中 读 取 它 的 操作 数 。 该 图 底部 是 这 个 周期 内 流 
水 线 活动 的 扩展 描述 。 第 一 个 irmovq 指令 已 经 通过 了 写 回 阶段 ， 因 此 程序 寄存 器 srdx 已 
经 在 寄存 器 文件 中 更 新 过 了 。 在 该 周期 内 ， 第 二 个 irmovq 指令 处 于 写 回 阶段 ， 因 此 对 程 
序 寄 存 器 srax 的 写 要 到 周期 7 开始 ， 时 钟 上 升 时 ， 才 会 发 生 。 结 果 ， 会 读 出 srax 的 错误 
值 (回想 一 下 ， 我 们 假设 所 有 的 寄存 器 的 初始 值 为 0)， 因 为 对 该 寄存 器 的 写 还 未 发 生 。 很 
明显 ， 我 们 必须 改进 流水 线 让 它 能 够 正确 处 理 这 样 的 冒险 。 
# prog2 
Ox000: irmovg $10,%rdx 














Ox00a: irmovd $3,%rax 
Ox014: nop 

Ox015: nop 

Ox016: addq %rdx,%rax 
Ox018: halt 




















图 4-44 prog2 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控制 。 直 到 周期 7 结束 时 ， 对 寄存 
器 srax 的 写 才 发 生 ， 所 以 addq 指令 在 译 码 阶段 读 出 的 是 该 寄存 器 的 错误 值 


图 4-45 是 当 irmovq 指令 和 addq 指令 之 间 只 有 一 条 nop 指令 ， 即 为 程序 prog3 时 ， 
发 生 的 情况 。 现 在 我 们 必须 检查 周期 5 内 流水 线 的 行为 ， 此 时 addqg 指令 通过 译 码 阶段 。 
不 幸 的 是 ， 对 寄存 器 srdx 的 写 仍 处 在 写 回 阶段 ， 而 对 寄存 器 srax 的 写 还 处 在 访 存 阶 段 。 
因此 ，addq 指令 会 得 到 两 个 错误 的 操作 数 。 

图 4-46 是 当 去 掉 irmovq 指令 和 adqq 指令 间 的 所 有 nop 指令 ， 即 为 程序 prog4 时 ， 
发 生 的 情况 。 现 在 我 们 必须 检查 周期 4 内 流水 线 的 行为 ， 此 时 addq 指令 通过 译 码 阶 段 。 
不 幸 的 是 ， 对 寄存 器 srqx 的 写 仍 处 在 访 存 阶段 ， 而 执行 阶段 正在 计算 寄存 器 srax 的 新 
值 。 因 此 ，aqqg 指令 的 两 个 操作 数 都 是 不 正确 的 。 

这 些 例子 说 明 ， 如 果 一 条 指令 的 操作 数 被 它 前 面 三 条 指令 中 的 任意 一 条 改变 的 话 ， 都 
会 出 现 数据 冒险 。 之 所 以 会 出 现 这 些 冒 险 ， 是 因为 我 们 的 流水 线 化 的 处 理 器 是 在 译 码 阶段 
从 寄存 器 文件 中 读 取 指 令 的 操作 数 ， 而 要 到 三 个 周期 以 后 ， 指 令 经 过 写 回 阶段 时 ， 才 会 将 
指令 的 结果 写 到 寄存 器 文件 。 
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# prog3 1 2 3 4 5 6 亚 8 9 
Ox000: irmovg $10,%rdx | 
0x00a: irmovg $3,%rax 
Ox014: nop 
Ox015: addq %rdx,hrax 
Ox017: halt 
M 
M_valE =3 
M_dstE = hrax 
错误 值 
valA4 RI%rdx]=0 
valB 二 R[%rax] = 0 
图 4-45 prog3 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控制 。 在 周期 5，addq 指令 从 寄存 器 文件 中 读 源 


操作 数 。 对 寄存 器 srdx 的 写 仍 处 在 写 回 阶段 ， 而 对 寄存 器 srax 的 写 还 在 访 存 阶段 。 两 个 操作 


数 valA 和 valB 得 到 的 都 是 错误 值 


# prog4 
0x000 : 
0x00a 
Ox014: 
Ox016: 





irmovg $10,%rdx 
irmovgq $3,%rax 
addq %rdx,%rax 
halt 






M_valE = 10 
M_dstE = %rdx 





evalE<-0+3=3 
E_dstE = %rax 
上 WET RY Ss 和 本 -Eee 









ps 
valA<- RI%rax]=0 
valB<— RI%rax] = 0 










错误 值 








图 4-46 prog4 的 流水 线 化 的 执行 ， 没 有 特殊 的 流水 线 控制 。 在 周期 4，addq 指令 从 寄存 器 文件 中 读 源 
操作 数 。 对 寄存 器 srdx 的 写 仍 处 在 访 存 阶 段 ， 而 执行 阶段 正在 计算 寄存 器 srax 的 新 值 。 两 个 操作 数 


valA 和 valB 得 到 的 都 是 错误 值 








国 昭 列举 数据 冒险 的 类 型 

当 一 条 指令 更 新 后 面 指令 会 读 到 的 那些 程序 状态 时 ， 就 有 可 能 出 现 冒 险 。 对 于 
Y86-64 来 说 ， 程 序 状 态 包 括 程序 寄存 器 、 程 序 计 数 器 、 内 存 、 条 件 码 寄 存 器 和 状态 寄 
存 器 。 让 我 们 来 看 看 在 提出 的 设计 中 每 类 状态 出 现 冒 险 的 可 能 性 。 

程序 寄存 器 : 我 们 已 经 认识 这 种 冒险 了 。 出 现 这 种 冒险 是 因为 寄存 器 文件 的 读 写 是 
在 不 同 的 阶段 进行 的 ， 导 致 不 同 指令 之 间 可 能 出 现 不 希望 的 相互 作用 。 

程序 计数 器 : 更 新 和 读 取 程序 计数 器 之 间 的 冲突 导致 了 控制 冒险 。 当 我 们 的 取 指 阶 
段 逻 辑 在 取 下 一 条 指令 之 前 ， 正确 预测 了 程序 计数 器 的 新 值 时 ， 就 不 会 产生 冒险 。 预 测 
错误 的 分 支 和 ret 指令 需要 特殊 的 处 理 ， 会 在 4.5.5 节 中 讨论 。 

内 存 : 对 数据 内 存 的 读 和 写 都 发 生 在 访 存 阶 段 。 在 一 条 读 内 存 的 指令 到 达 这 个 阶段 之 
前 ， 前 面 所 有 要 写 内 存 的 指令 都 已 经 完成 这 个 阶段 了 。 另 外 ， 在 访 存 阶段 中 写 数 据 的 指令 
和 在 取 指 阶段 中 读 指令 之 间 也 有 冲突 ， 因 为 指令 和 数据 内 存 访 问 的 是 同一 个 地 址 空间 。 只 
有 包含 自我 修改 代码 的 程序 才 会 发 生 这 种 情况 ， 在 这 样 的 程序 中 ， 指 令 写 内 存 的 一 部 分 ， 
过 后 会 从 中 取出 指令 。 有 些 系统 有 复杂 的 机 制 来 检测 和 避免 这 种 冒险 ， 而 有 些 系统 只 是 简 
单 地 强制 要 求 程序 不 应 该 使 用 自我 修改 代码 。 为 了 简便 ， 假 设 程序 不 能 修改 自身 ， 因 此 我 们 
不 需要 采取 特殊 的 措施 ， 根 据 在 程序 执行 过 程 中 对 数据 内 存 的 修改 来 修改 指令 内 存 。 

条 件 码 寄存 器 : 在 执行 阶段 中 ， 整 数 操 作 会 写 这 些 寄存 器 。 条 件 传 送 指令 会 在 执行 
阶段 以 及 条 件 转 移 会 在 访 存 阶段 读 这 些 寄存 器 。 在 条 件 传 送 或 转移 到 达 执 行 阶段 之 前 ， 
前 面 所 有 的 整数 操作 都 已 经 完成 这 个 阶段 了 。 所 以 不 会 发 生 冒 险 。 

状态 寄存 器 : 指令 流 经 流水 线 的 时 候 ， 会 影响 程序 状态 。 我 们 采用 流水 线 中 的 每 条 
指令 都 与 一 个 状态 码 相关 联 的 机 制 ， 使 得 当 异 常 发 生 时 ， 处 理 器 能 够 有 条 理 地 停止 ， 就 
像 在 4.5.6 节 中 会 讲 到 的 那样 。 

这 些 分 析 表 明 我 们 只 需要 处 理 寄存 器 数据 冒险 、 控 制 冒 险 ， 以 及 确保 能 够 正确 处 理 
异常 。 当 设计 一 个 复杂 系统 时 ， 这 样 的 分 类 分 析 是 很 重要 的 。 这 样 做 可 以 确认 出 系统 实 
现 中 可 能 的 困难 ， 还 可 以 指导 生成 用 于 检查 系统 正确 性 的 测试 程序 。 


1. 用 暂停 来 避免 数据 冒险 

暂停 (stalling) 是 避免 冒险 的 一 种 常用 技术 ， 和 暂停 时 ， 处 理 器 会 停止 流水 线 中 一 条 或 多 
条 指令 ， 直 到 冒险 条 件 不 再 满足 。 让 一 条 指令 停顿 在 译 码 阶段 ， 直 到 产生 它 的 源 操作 数 的 
指令 通过 了 写 回 阶段 ， 这 样 我 们 的 处 理 器 就 能 避免 数据 冒险 。 这 种 机 制 的 细节 会 在 4. 5.8 
节 中 讨论 。 它 对 流水 线 控制 逻辑 做 了 一 些 简 单 的 加 强 。 图 4-47(prog2) 和 图 4-48(prog4) 
中 男 出 了 暂停 的 效果 。( 在 这 里 的 讨论 中 我 们 省 略 了 prog3， 因 为 它 的 运行 类 似 于 其 他 两 
个 例子 。) 当 指令 adqdq 处 于 译 码 阶段 时 ， 流水线 控制 逻辑 发 现 执 行 、 访 存 或 写 回 阶段 中 至 
少 有 一 条 指令 会 更 新 寄存 器 $rdx 或 srax。 处 理 器 不 会 让 addgq 指令 带 着 不 正确 的 结果 通过 
这 个 阶段 ， 而 是 会 暂停 指令 ， 将 它 阻塞 在 译 码 阶段 ， 时 间 为 一 个 周期 (对 prog2 来 说 ) 或 者 
三 个 周期 (对 prog4 来 说 )。 对 所 有 这 三 个 程序 来 说 ，addq 指令 最 终 都 会 在 周期 7 中 得 到 
两 个 源 操 作 数 的 正确 值 ， 然 后 继续 沿 着 流水 线 进行 下 去 。 

将 addq 指令 阻塞 在 译 码 阶 段 时 ， 我 们 还 必须 将 紧 跟 其 后 的 halt 指令 阻塞 在 取 指 阶 
段 。 通 过 将 程序 计数 器 保持 不 变 就 能 做 到 这 一 点 ， 这 样 一 来 ， 会 不 断 地 对 halt 指令 进行 
取 指 ， 直 到 暂停 结束 。 
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暂停 技术 就 是 让 一 组 指令 阻塞 在 它们 所 处 的 阶段 ， 而 允许 其 他 指令 继续 通过 流水 线 。 
那么 在 本 该 正常 处 理 addq 指令 的 阶段 中 ， 我 们 该 做 些 什么 呢 ? 我 们 使 用 的 处 理 方法 是 : 
每 次 要 把 一 条 指令 阻塞 在 译 码 阶段 ， 就 在 执行 阶段 插入 一 个 气泡 。 气 泡 就 像 一 个 自动 产生 
的 nop 指令 一 一 它 不 会 改变 寄存 器 、 内 存 、 条 件 码 或 程序 状态 。 在 图 4-47 和 图 4-48 的 流 
水 线 图 中 ， 白 色 方 框 表示 的 就 是 气泡 。 在 这 些 图 中 ， 我 们 用 一 个 adaqg 指令 的 标号 为 “D” 
的 方 框 到 标号 为 “E” 的 方 框 之 间 的 箭头 来 表示 一 个 流水 线 气 泡 ， 这 些 箭头 表明 ， 在 执行 
阶段 中 插入 气泡 是 为 了 替代 addq 指令 ， 它 本 来 应 该 经 过 译 码 阶段 进入 执行 阶段 。 在 
4.5.8 节 中 ， 我 们 将 看 到 使 流水 线 暂 停 以 及 插入 气泡 的 详细 机 制 。 





# prog2 

Ox000: irmovg $10,%rdx 
Ox00a: irmovg $3,%rax 
0x014: nop 

0x015: nop 

bubble 

Ox016: addlq %rdx,%rax 
Ox018: halt 











图 4-47 prog2 使 用 暂停 的 流水 线 化 的 执行 。 在 周期 6 中 对 addq 指令 译 码 之 后 ， 暂 停 控制 逻辑 发 现 
一 个 数据 冒险 ， 它 是 由 写 回 阶段 中 对 寄存 器 $rax 未 进行 的 写 造 成 的 。 它 在 执行 阶段 中 插入 
一 个 气泡 ， 并 在 周期 7 中 重复 对 指令 addq 的 译 码 。 实 际 上 ， 机 器 是 动态 地 插入 一 条 nop 指 

令 ， 得 到 的 执行 流 类 似 于 progl 的 执行 流 (图 4-43) 


# prog4 
Ox000: irmovg $10,%rdx 
Ox00a: irmovq $3,%rax 
bubble 

bubble 

bubble 
Ox014:; addq %rdx,%rax 
Ox016: halt 

















图 4-48 prog4 使 用 暂停 的 流水 线 化 的 执行 。 在 周期 4 中 对 addq 指令 译 码 之 后 ， 暂 停 控制 逻辑 发 现 
了 对 两 个 源 寄存 器 的 数据 冒险 。 它 在 执行 阶段 中 插入 一 个 气泡 ， 并 在 周期 5 中 重复 对 指令 
addq 的 译 码 。 它 再 次 发 现 对 两 个 源 寄存 器 的 冒险 ， 就 在 执行 阶段 中 插入 一 个 气泡 ， 并 在 周 
期 6 中 重复 对 指令 addq 的 译 码 。 它 再 次 发 现 对 寄存 器 srax 的 冒险 ， 就 在 执行 阶段 中 插入 
一 个 气泡 ， 并 在 周期 7 中 重复 对 指令 addq 的 译 码 。 实 际 上 ， 机 器 是 动态 地 插入 三 条 nop 指 
令 ， 得 到 的 执行 流 类 似 于 progl 的 执行 流 (图 4-43) 


在 使 用 暂停 技术 来 解决 数据 冒险 的 过 程 中 ， 我 们 通过 动态 地 产生 和 progl 流 ( 图 4-43) 
一 样 的 流水 线 流 ， 有 效 地 执行 了 程序 prog2 和 prog4。 为 prog2 插 入 1 个 气泡 ， 为 prog4 
插入 3 个 气泡 ， 与 在 第 2 条 irmovq 指令 和 addg 指令 之 间 有 3 条 nop 指令 ， 有 相同 的 效 
果 。 虽 然 实现 这 一 机 制 相 当 容 易 ( 参 考 家 庭 作 业 4. 53) ， 但 是 得 到 的 性 能 并 不 很 好 。 一 条 指 
令 更 新 一 个 寄存 器 ， 紧 跟 其 后 的 指令 就 使 用 被 更 新 的 寄存 器 ， 像 这 样 的 情况 不 胜 枚 举 。 这 
会 导致 流水 线 暂停 长 达 三 个 周期 ， 严 重 降低 了 整体 的 吞吐 量 。 








2. 用 转发 来 避免 数据 冒险 

PIPE -的 设计 是 在 译 码 阶段 从 寄存 器 文件 中 读 和 信 源 操作 数 ， 但 是 对 这 些 源 寄存 器 的 写 有 
可 能 要 在 写 回 阶段 才能 进行 。 与 其 暂停 直到 写 完 成 ， 不 如 简单 地 将 要 写 的 值 传 到 流水 线 寄 存 
器 王 作 为 源 操 作 数 。 图 4-49 用 prog2 周期 6 的 流水 线 图 的 扩展 描述 来 说 明了 这 一 策略 。 译 
码 阶 段 逻辑 发 现 ， 寄 存 器 srax 是 操作 数 valB 的 源 寄存 器 ， 而 在 写 端口 EE 上 还 有 一 个 对 %rax 
的 未 进行 的 写 。 它 只 要 简单 地 将 提供 到 端口 王 的 数据 字 ( 信 号 W_valE) 作 为 操作 数 valB 的 
值 ， 就 能 避免 暂停 。 这 种 将 结果 值 直接 从 一 个 流水 线 阶 段 传 到 较 早 阶段 的 技术 称 为 数据 转发 
(data forwarding， 或 简称 转发 ， 有 时 称 为 旁 路 (bypassing))。 它 使 得 prog2 的 指令 能 通过 流水 线 
而 不 需要 任何 暂停 。 数 据 转 发 需要 在 基本 的 硬件 结构 中 增加 一 些 额 外 的 数据 连接 和 控制 逻辑 。 





# prog2 间 2 3 4 5 6 和 8 9 10 
Ox000: irmovg $10,%rdx 
Ox00a: irmovg $3,%rax 
Ox014: nop 
Ox015: nop 
Ox016: addq %hrdx,%rax 
Ox018: halt 














Se 


W_dstE = hrax 
W_valE =3 


R[srax] 3 






valA 4 RI%rdx] = 10 
valB<- W_valE =3 












图 4-49 prog2 使 用 转发 的 流水 线 化 的 执行 。 在 周期 6 中 ， 译 码 阶 段 逻 辑 发 现 有 在 写 回 阶段 中 
对 寄存 器 srax 未 进行 的 写 。 它 用 这 个 值 ， 而 不 是 从 寄存 器 文件 中 读 出 的 值 ， 作 为 源 
操作 数 valB 


如 图 4-50 所 示 ， 当 访 存 阶段 中 有 对 寄存 器 未 进行 的 写 时 ， 也 可 以 使 用 数据 转发 ， 以 
避免 程序 prog3 中 的 暂停 。 在 周期 5 中 ， 译 码 阶段 逻辑 发 现 ， 在 写 回 阶段 中 端口 下 上 有 对 
寄存 器 srdx 未 进行 的 写 ， 以 及 在 访 存 阶段 中 有 会 在 端口 下 上 对 寄存 器 srax 未 进行 的 写 。 
它 不 会 暂停 直到 这 些 写真 正 发 生 ， 而 是 用 写 回 阶段 中 的 值 (信号 W_valE) 作 为 操作 数 va- 
1A， 用 访 存 阶段 中 的 值 (信号 M_valE) 作 为 操作 数 valB。 

为 了 充分 利用 数据 转发 技术 ,我们 还 可 以 将 新 计算 出 来 的 值 从 执行 阶段 传 到 译 码 阶段 ， 
以 避免 程序 prog4 所 需要 的 暂停 ， 如 图 4-51 所 示 。 在 周期 4 中 ， 译 码 阶段 逻辑 发 现在 访 存 阶 
段 中 有 对 寄存 器 srqx 未 进行 的 写 ， 而且 执 行 阶段 中 ALU 正在 计算 的 值 稍 后 也 会 写 入 寄存 
器 srax。 它 可 以 将 访 存 阶 段 中 的 值 ( 信 号 M valE) 作 为 操作 数 valA， 也 可 以 将 ALU 的 输出 
(信号 e_valE) 作 为 操作 数 valB。 注 意 ， 使 用 ALU 的 输出 不 会 造成 任何 时 序 问题 。 译 码 阶 段 
只 要 在 时 钟 周期 结束 之 前 产生 信号 valA 和 valB， 这 样 在 时 钟 上 升 开始 下 一 个 周期 时 ， 流 水 
线 寄存 器 下 就 能 装载 来 自 译 码 阶段 的 值 了 。 而 在 此 之 前 ALU 的 输出 已 经 是 合法 的 了 。 








# prog3 

Ox000: irmovg $10,%rdx 
Ox00a: irmovg $3,%rax 
Ox014: nop 

Ox005: addq %rdx,%rax 
Ox017; halt 








W_dstE = %rdx 
W valE = 10 


M_dstE = %rax 
M_valE =3 





SrcA = hrdx 
SrcB = %rax 











图 4-50 ”prog3 使 用 转发 的 流水 线 化 的 执行 。 在 周期 5 中 ， 译 码 阶 段 逻 辑 发 现 有 在 写 回 阶段 中 对 寄存 器 
%rdx 未 进行 的 写 ， 以 及 在 访 存 阶段 中 对 寄存 器 $rax 未 进行 的 写 。 它 用 这 些 值 ， 而 不 是 从 寄存 器 
文件 中 读 出 的 值 ， 作 为 valA 和 valB 的 值 


# prog4 2 3 4 5 6 二 8 
Ox000: irmovq $10,%rdx 
Ox00a: irmovg $3,%rax 
Ox014: addq hrdx,%hrax 
Ox016: halt 





M_dstE = %rdx 
M_valE = 10 








E_dstE = %rax 
evalE<—-0+3=3 






valA<-—M_valE = 10 
valB4-e_valE=3 


SrCA = %rdx 
SrcB = %rax 















图 4-51 prog4 使 用 转发 的 流水 线 化 的 执行 。 在 周期 4 中 ， 译 码 阶段 逻辑 发 现 有 在 访 存 阶段 中 对 寄存 
%rdx 未 进行 的 写 ， 还 发 现在 执行 阶段 中 正在 计算 寄存 器 $rax 的 新 值 。 它 用 这 些 值 ， 而 不 是 从 
寄存 器 文件 中 读 出 的 值 ， 作 为 valA 和 valB 的 值 
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程序 prog2 一 prog4 中 描述 的 转发 技术 的 使 用 都 是 将 ALU 产生 的 以 及 其 目标 为 写 端 
口 玉 的 值 进行 转发 ,其实 也 可 以 转发 从 内 存 中 读 出 的 以 及 其 目标 为 写 端 口 M 的 值 。 从 访 
存 阶 段 ， 我 们 可 以 转发 刚刚 从 数据 内 存 中 读 出 的 值 ( 信 号 m valM)。 从 写 回 阶段 ， 我 们 可 以 转 
发 对 端口 M 未 进行 的 写 ( 信 号 W_valM) 。 这 样 一 共 就 有 五 个 不 同 的 转发 源 (e_valE、m_valM、 
M valE、W valM 和 W valE)， 以 及 两 个 不 同 的 转发 目的 (valA 和 valB) 。 


sl W_valE 





en 


B 
| 


| 译 码 






i imem_error: 
instr_valid ; ......... 


前 面 三 条 指令 











图 4-52 流 二 一 
的 结果 。 这 使 得 我 们 能 够 不 暂停 流水 线 就 处 理 大 多 数 形式 的 数据 冒险 





图 4-49 一 图 4-51 的 扩展 图 还 表明 译 码 阶段 逻辑 能 够 确定 是 使 用 来 自 寄 存 器 文件 的 值 ， 
还 是 要 用 转发 过 来 的 值 。 与 每 个 要 写 回 寄存 器 文件 的 值 相 关 的 是 目的 寄存 器 ID。 人 逻辑 会 
将 这 些 ID 与 源 寄 存 器 ID srcA 和 srcB 相 比 较 ， 以 此 来 检测 是 否 需 要 转发 。 可 能 有 多 个 目 
的 寄存 器 ID 与 一 个 源 ID 相等 。 要 解决 这 样 的 情况 ， 我 们 必须 在 各 个 转发 源 中 建立 起 优先 
级 关系 。 在 学 习 转 发 逻辑 的 详细 设计 时 ， 我 们 会 讨论 这 个 内 容 。 

图 4-52 给 出 的 是 PIPE 的 结构 ， 它 是 PIPE 一 的 扩展 ， 能 通过 转发 处 理 数 据 冒 险 。 将 
这 幅 图 与 PIPE 一 的 结构 (图 4-41) 相 比 ， 我 们 可 以 看 到 来 自 五 个 转发 源 的 值 反馈 到 译 码 阶段 
中 两 个 标号 为 “Sel 十 Fwd A” 和 “Fwd B” 的 块 。 标 号 为 “Sel 十 Fwd A” 的 块 是 PIPE 一 
中 标号 为 “Select A” 的 块 的 功能 与 转发 逻辑 的 结合 。 它 允许 流水 线 寄存 器 下 的 vala 为 
已 增加 的 程序 计数 器 值 valP， 从 寄存 器 文件 A 端口 读 出 的 值 ， 或 者 某 个 转发 过 来 的 值 。 
标号 为 “Fwd B” 的 块 实现 的 是 源 操作 数 valB 的 转发 逻辑 。 

3. 加 载 /使 用 数据 冒险 

有 一 类 数据 冒险 不 能 单纯 用 转发 来 解决 ， 因 为 内 存 读 在 流水 线 发 生 的 比较 晚 。 图 4-53 举 
例 说 明了 加 载 /使 用 冒险 (load/use hazard)， 其 中 一 条 指令 (位 于 地 址 0x028 的 mrmovq) 从 内 存 
中 读 出 寄存 器 srax 的 值 ， 而 下 一 条 指令 (位 于 地 址 0x032 的 addq) 需 要 该 值 作为 源 操 作 数 。 
图 的 下 部 是 周期 7 和 8 的 扩展 说 明 ， 在 此 假设 所 有 的 程序 寄存 器 都 初始 化 为 0。addq 指令 在 
周期 7 中 需要 该 寄存 器 的 值 ， 但 是 mrmovq 指令 直到 周期 8 才 产 生出 这 个 值 。 为 了 从 mrmovq 
“转发 到 ”agddq， 转 发 逻辑 不 得 不 将 值 送 回 到 过 去 的 时 间 ! 这 显然 是 不 可 能 的 ， 我 们 必须 找 
到 其 他 机 制 来 解决 这 种 形式 的 数据 冒险 。( 位 于 地 址 0x01e 的 irmovq 指令 产生 的 寄存 器 srbx 
的 值 ， 会 被 位 于 地 址 0x032 的 addq 指令 使 用 ， 转 发 能 够 处 理 这 种 数据 冒险 。) 


# prog5 “和 
Ox000: irmovg $128,%rdx 
Ox00a: irmovg $3,%rcx 


Ox014: rmmovg hrcx, O(%rdx) 






Ox0le: irmovq $10,%rbx 
0x028: mrmovq 0(%rdx),%rax # Load hrax 
0x032: addq %ebx,%heax # Use hrax 
0x034: halt 








M_dstM = %rax 
m_valM<—M[128] = 3 






M_dstE = %rbx 
M_valE = 10 站 














图 4-53 加载 /使 用 数据 冒险 的 示例 。addq 指令 在 周期 7 译 码 阶段 中 需要 寄存 器 srax 的 值 。 前 面 的 
mrmovq 指令 在 周期 8 访 存 阶段 中 读 出 这 个 寄存 器 的 新 值 ， 这 对 于 addq 指令 来 说 太 迟 了 
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如 图 4-54 所 示 ， 我 们 可 以 将 暂停 和 转发 结合 起 来 ， 避 人 免 加 载 /使 用 数据 冒险 。 这 个 需 
要 修改 控制 逻辑 ， 但 是 可 以 使 用 现 有 的 旁 路 路 径 。 当 mrmova 指令 通过 执行 阶段 时 ， 流 水 
线 控制 逻辑 发 现 译 码 阶段 中 的 指令 (adqdq) 需 要 从 内 存 中 读 出 的 结果 。 它 会 将 译 码 阶 段 中 的 
指令 暂停 一 个 周期 ， 导 致 执行 阶段 中 插入 一 个 气泡 。 如 周期 8 的 扩展 说 明 所 示 ， 从 内 存 中 
读 出 的 值 可 以 从 访 存 阶 段 转发 到 译 码 阶 段 中 的 adqq 指令 。 寄 存 器 szrbx 的 值 也 可 以 从 访 存 
阶段 转发 到 译 码 阶段 。 就 像 流 水 线 图 ， 从 周期 7 中 标号 为 “D” 的 方 框 到 周期 8 中 标号 为 
“E” 的 方 框 的 箭头 表明 的 那样 ， 插 入 的 气泡 代 蔡 了 正常 情况 下 本 来 应 该 继续 通过 流水 线 的 
addq 指令 。 








# prog5 1 2 3 4 5 6 7 8 9 10 11 入 
Ox000: irmovg $128,Xrdx | 
Ox00a: irmovq $3,%rcx 


Ox014: rmmovq %rcx, 0(%rdx) 






0Ox01e: irmovg $10,%rbx 

Ox028: mrmovq 0(%rdx) ,hrax # Load hrax 
bubble 

Ox032: addq %rbx,%rax # Use hrax 

Ox034: halt 


ee 


W _dstE = %rbx 
W _valf = 10 





M_dstM = %rax | 
m_valM <—M[128] =3 | 





valB<— m_valM=3 
图 4-54 用 暂停 来 处 理 加 载 / 使 用 冒险 。 通 过 将 addq 指令 在 译 码 阶段 暂停 一 个 周期 ， 就 可 以 将 valB 
的 值 从 访 存 阶段 中 的 mrmovq 指令 转发 到 译 码 阶段 中 的 adda 指令 

这 种 用 暂停 来 处 理 加 载 /使 用 冒险 的 方法 称 为 加 载 互 锁 (load interlock)。 加 载 互 锁 和 
转发 技术 结合 起 来 足以 处 理 所 有 可 能 类 型 的 数据 冒险 。 因 为 只 有 加 载 互 锁 会 降低 流水 线 的 
吞吐 量 ， 我们 几乎 可 以 实现 每 个 时 钟 周期 发 射 一 条 新 指令 的 吞吐 量 目标 。 

4. 避免 控制 冒险 

当 处 理 器 无 法 根据 处 于 取 指 阶段 的 当前 指令 来 确定 下 一 条 指令 的 地 址 时 ， 就 会 出 现 控 
制 冒 险 。 如 同 在 4. 5.4 节 讨 论 过 的 ， 在 我 们 的 流水 线 化 处 理 器 中 ， 控 制 冒险 只 会 发 生 在 ， 
ret 指令 和 跳 转 指 令 。 而 且 ， 后 一 种 情况 只 有 在 条 件 跳 转 方向 预测 错误 时 才 会 造成 麻烦 。 
在 本 小 节 中 ， 我 们 概括 介绍 如 何 来 处 理 这 些 冒 险 。 作 为 对 流水 线 控制 更 一 般 性 讨论 的 一 部 - 

















分 ， 其 详细 实现 将 在 4. 5. 8 节 给 出 。 
et 指令 ， 考 虑 下 面 的 示例 程序 。 这 个 程序 是 用 汇编 代码 表示 的 ， 左 边 是 各 个 指 


对 于 ' 台 
令 的 地 址 ， 


0x000 : 
0Ox00a 
0x013: 
Ox01d: 
0x020: 
0x020: 
0x020: 
0x021 : 
0x030:} 
0x030: 


以 供 参考 ， 


irmovd stack,%rsp # Initialize stack pointer 


call proc 
irmovg $10,%rdx 
halt 
.pos Ox20 
proc: 
ret 
rrmovgd %rdx,%rbx 
.pos Ox30 
stack: 


## Procedure call 
t# Return point 


# proc: 
# Return immediately 
# Not executed 


# stack: Stack pointer 


图 4-55 给 出 了 我 们 希望 流水 线 如 何 来 处 理 ret 指令 。 同 前 面 的 流水 线 图 一 样 ， 这 幅 
图 展示 了 流水 线 的 活动 ， 时 间 从 左 向 右 增 加 。 与 前 面 不 同 的 是 ， 指 令 列 出 的 顺序 与 它们 在 
程序 中 出 现 的 顺序 并 不 相同 ， 这 是 因为 这 个 程序 的 控制 流 中 指令 并 不 是 按 线 性 顺序 执行 


的 。 看 看 指令 


# Prog7 
0x000: 
Ox00a: 
Ox020: 


0x013: 


| 


irmovq Stack,%edx 
call proc 

ret 

bubble 

bubble 

bubble 


irmovg $10,%rdx # Return point 








的 地 址 就 能 看 出 它们 在 程序 中 的 位 置 。 

















图 4-55 ret 


指令 处 理 的 简化 视图 。 当 ret 经 过 译 码 、 执 行 和 访 存 阶段 时 ， 流 水 线 应 该 暂停 ， 在 处 理 


过 程 中 插入 三 个 气泡 。 一 且 ret 指令 到 达 写 回 阶段 (周期 7)，PC 选择 逻辑 就 会 选择 返回 地 址 作为 
指令 的 取 指 地 址 


如 这 张 图 所 示 ， 在 周期 3 中 取出 ret 指令 ， 并 沿 着 流水 线 前 进 ， 在 周期 7 进入 写 回 阶 
经 过 译 码 、 执 行 和 访 存 阶段 时 ， 流水 线 不 和 EB 做 任何 有 用 的 活动 。 我 们 只 能 在 流水 
个 气泡 。 一 旦 ret 指令 到 达 写 回 阶 段 ，PC 选择 逻辑 就 会 将 程序 计数 器 设 为 返 
回 地 址 ， 然 后 取 指 阶段 就 会 取出 位 于 返回 点 (地 址 0x013) 处 的 irmovqa 指令 。 

要 处 理 预测 错误 的 分 支 ， 考 虑 下 面 这 个 用 汇编 代码 表示 的 程序 ， 左 边 是 各 个 指令 的 地 


段 。 在 它 儿 
线 中 插入 三 


址 ， 以 供 参 考 


Ox000: 
0x002 : 
0x00b : 
Ox015: 
0x016: 
0x016: 
0x020: 
0x02a: 


XOTQq %rax,%rax 
jne target 
irmovg $1, %rax 
halt 

target: 
irmovd $2, %rdx 
irmovgd $3, %rbx 
halt 


# Not taken 
# Fall through 


# Target 
# Target+1 


图 4-56 表明 是 如 何 处 理 这 些 指令 的 。 同 前 面 一 样 ， 指 令 是 按照 它们 进入 流水 线 的 顺 
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序列 出 的 ， 而 不 是 按照 它们 出 现在 程序 中 的 顺序 。 因 为 预测 跳 转 指令 会 选择 分 支 ， 所 以 周 
期 3 中 会 取出 位 于 跳 转 目标 处 的 指令 ， 而 周期 4 中 会 取出 该 指令 后 的 那 条 指令 。 在 周期 4， 
分 支 逻 辑 发 现 不 应 该 选择 分 支 之 前 , 已 经 取出 了 两 条 指令 ， 它们 不 应 该 继续 执行 下 去 了 。 
幸运 的 是 ， 这 两 条 指令 都 没有 导致 程序 员 可 见 的 状态 发 生 改变 。 只 有 到 指令 到 达 执 行 阶段 
时 才 会 发 生 那 种 情况 ， 在 执行 阶段 中 ， 指 令 会 改变 条 件 码 。 我 们 只 要 在 下 一 个 周期 往 译 码 
和 执行 阶段 中 插入 气泡 ， 并 同时 取出 跳 转 指令 后 面 的 指令 ， 这样 就 能 取消 (有 时 也 称 为 指 
令 排 除 (instruction squashing)) 那 两 条 预测 错误 的 指令 。 这 样 一 来 ， 两 条 预测 错误 的 指令 
就 会 简单 地 从 流水 线 中 消失 ， 因 此 不 会 对 程序 员 可 见 的 状态 产生 影响 。 唯 一 的 缺点 是 两 个 
时 钟 周期 的 指令 处 理 能 力 被 浪费 了 。 





# prog7 1 2 3 4 5 6 ” 8 9 10 











Ox000: Xorq hrax,hrax 

Ox002: jne target # Not taken 

Ox016: irmov]l $2,%rdx # Target 
bubble 

Ox020: irmovl $3,%rbx # Target+1 
bubble 

OxOO0b: irmovq $1,%rax # Fall through 

halt 
















图 4-56 处 理 预 测 错误 的 分 支 指令 。 流 水 线 预 测 会 选择 分 支 ， 所 以 开始 取 跳 转 目标 处 的 指令 。 
在 周期 4 发 现 预测 错误 之 前 ， 已 经 取出 了 两 条 指令 ， 此 时 ， 跳 转 指令 正在 通过 执行 
阶段 。 在 周期 5 中 ， 流 水 线 往 译 码 和 执行 阶段 中 插 和 人 气泡 ， 取 消 了 两 条 目标 指令 ， 
同时 还 取出 跳 转 后 面 的 那 条 指令 
对 控制 冒险 的 讨论 表明 ， 通 过 慎重 考虑 流水 线 的 控制 逻辑 ， 控 制 冒 险 是 可 以 被 处 理 
的 。 在 出 现 特殊 情况 时 ， 暂 停 和 往 流水 线 中 插 和 人 气泡 的 技术 可 以 动态 调整 流水 线 的 流程 
如 同 我 们 将 在 4. 5. 8 节 中 讨论 的 一 样 ， 对 基本 时 钟 寄 存 器 设计 的 简单 扩展 就 可 以 让 我 们 暂 
停 流水 段 ， 并 向 作为 流水 线 控制 逻辑 一 部 分 的 流水 线 寄存 器 中 插 人 气泡 。 


4. 5.6 异常 处 理 


正如 第 8 章 中 将 讨论 的 ， 处 理 器 中 很 多 事情 都 会 导致 异常 控制 流 ， 此 时 ， 程 序 执行 的 
正常 流程 被 破坏 掉 。 异 常 可 以 由 程序 执行 从 内 部 产生 ， 也 可 以 由 某 个 外 部 信号 从 外 部 产 
生 。 我 们 的 指令 集体 系 结构 包括 三 种 不 同 的 内 部 产生 的 异常 : 1)halt 指令 ，2) 有 非法 指 
令 和 功能 码 组 合 的 指令 ，3) 取 指 或 数据 读 写 试图 访问 一 个 非法 地 址 。 一 个 更 完整 的 处 理 器 
设计 应 该 也 能 处 理 外 部 异常 ， 例 如 当 处 理 器 收 到 一 个 网 络 接口 收 到 新 包 的 信号 ， 或 是 一 个 
用 户 点 击 鼠 标 按钮 的 信号 。 正 确 处 理 异 常 是 任何 微 处 理 器 设计 中 很 有 挑战 性 的 一 方面 。 蜡 
常 可 能 出 现在 不 可 预测 的 时 间 ， 需 要 明确 地 中 断 通过 处 理 器 流水 线 的 指令 流 。 我 们 对 这 三 
种 内 部 异常 的 处 理 只 是 让 你 对 正确 发 现 和 处 理 异 常 的 真实 复杂 性 略 有 了 解 。 

我 们 把 导致 异常 的 指令 称 为 异常 指令 (excepting instruction) 。 在 使 用 非法 指令 地 址 的 
情况 中 ， 没 有 实际 的 异常 指令 ， 但 是 想象 在 非法 地 址 处 有 一 种 “虚拟 指令 ”会 有 所 帮助 
在 简化 的 ISA 模型 中 ， 我 们 希望 当 处 理 器 遇 到 异常 时 ， 会 停止 ， 设 置 适当 的 状态 码 ， 如 图 
4-5 所 示 。 看 上 去 应 该 是 到 异常 指令 之 前 的 所 有 指令 都 已 经 完成 ， 而 其 后 的 指令 都 不 应 该 
对 程序 员 可 见 的 状态 产生 任何 影响 。 在 一 个 更 完整 的 设计 中 ， 处 理 器 会 继续 调用 异常 处 理 








程序 (exception handler)， 这 是 操作 系统 的 一 部 分 ， 但 是 实现 异常 处 理 的 这 部 分 超出 了 本 
书 讲述 的 范围 。 

在 一 个 流水 线 化 的 系统 中 ， 异 常 处 理 包 括 一 些 细节 问题 。 首 先 ， 可 能 同时 有 多 条 指 
令 会 引起 异常 。 例 如 ， 在 一 个 流水 线 操作 的 周期 内 ， 取 指 阶段 中 有 halt 指令 ， 而 数据 
内 存 会 报告 访 存 阶段 中 的 指令 数据 地 址 越界 。 我 们 必须 确定 处 理 器 应 该 向 操作 系统 报告 
哪个 异常 。 基 本 原则 是 : 由 流水 线 中 最 深 的 指令 引起 的 异常 ， 优 先 级 最 高 。 在 上 面 那 个 
例子 中 ， 应 该 报告 访 存 阶段 中 指令 的 地 址 越界 。 就 机 器 语言 程序 来 说 ， 访 存 阶段 中 的 指 
令 本 来 应 该 在 取 指 阶段 中 的 指令 开始 之 前 就 结束 的 ， 所 以 ， 只 应 该 向 操作 系统 报告 这 个 
异常 。 

第 二 个 细节 问题 是 ， 当 首先 取出 一 条 指令 ， 开 始 执行 时 ， 导 致 了 一 个 异常 ， 而 后 来 由 
于 分 支 预测 错误 ， 取 消 了 该 指令 。 下 面 就 是 一 个 程序 示例 的 目标 代码 : 


0Ox000: 6300 | Xorq %rax,%rax 

Ox002: 741600000000000000 | jne target # Not taken 

Ox00b: 30f00100000000000000 | irmovg $1, %rax # Fall through 

Ox015: 00 | halt 

0x016: | target: 

Ox016: ff | .byte OxFF # Invalid instruction code 


在 这 个 程序 中 ， 流 水 线 会 预测 选择 分 支 ， 因 此 它 会 取出 并 以 一 个 值 为 0xFF 的 字 节 作 
为 指令 (由 汇编 代码 中 .byte 伪 指令 产生 的 ) 。 译 码 阶段 会 因此 发 现 一 个 非法 指令 异常 。 稍 
后 ， 流 水 线 会 发 现 不 应 该 选择 分 支 ， 因 此 根本 就 不 应 该 取出 位 于 地 址 0x016 的 指令 。 流 水 
线 控制 逻辑 会 取消 该 指令 ， 但 是 我 们 想 要 避免 出 现 异常 。 

第 三 个 细节 问题 的 产生 是 因为 流水 线 化 的 处 理 器 会 在 不 同 的 阶段 更 新 系统 状态 的 不 同 
部 分 。 有 可 能 会 出 现 这 样 的 情况 ， 一 条 指令 导致 了 一 个 异常 ， 它 后 面 的 指令 在 异常 指令 完 
成 之 前 改变 了 部 分 状态 。 比 如 说 ， 考 虑 下 面 的 代码 序列 ， 其 中 假设 不 允许 用 户 程序 访问 64 
位 范围 的 高 端 地 址 : 

irmovg $1,%rax 
Xorq %rsp,%rsp # Set stack pointer to 0 and CC to 100 


1 

2 

3 pushq %rax # Attempt to write to Oxfffffffffffffff8 

4 addq %rax,%rax # (Should not be executed) Would set CC to 000 


pushq 指令 导致 一 个 地 址 异常 ， 因 为 减 小 栈 指针 会 导致 它 绕 回 到 0xfffffffffffffff8。 
访 存 阶段 中 会 发 现 这 个 异常 。 在 同一 周期 中 ，addqg 指令 处 于 执行 阶段 ， 而 它 会 将 条 件 码 
设置 成 新 的 值 。 这 就 会 违反 异常 指令 之 后 的 所 有 指令 都 不 能 影响 系统 状态 的 要 求 。 

一 般 地 ， 通 过 在 流水 线 结构 中 加 入 异常 处 理 逻 辑 ， 我 们 既 能 够 从 各 个 异常 中 做 出 正确 
的 选择 ， 也 能 够 避免 出 现 由 于 分 支 预测 错误 取出 的 指令 造成 的 异常 。 这 就 是 为 什么 我 们 会 
在 每 个 流水 线 寄存 器 中 包括 一 个 状态 码 stat( 图 4-41 和 图 4-52) 。 如 果 一 条 指令 在 其 处 理 
中 于 某 个 阶段 产生 了 一 个 异常 ， 这 个 状态 字段 就 被 设置 成 指示 异常 的 种 类 。 异 常 状 态 和 该 
指令 的 其 他 信息 一 起 沿 着 流水 线 传 播 ， 直 到 它 到 达 写 回 阶段 。 在 此 ， 流 水 线 控制 逻辑 发 现 
出 现 了 异常 ， 并 停止 执行 。 

为 了 避免 异常 指令 之 后 的 指令 更 新 任何 程序 员 可 见 的 状态 ， 当 处 于 访 存 或 写 回 阶段 中 
的 指令 导致 异常 时 ， 流 水 线 控制 逻辑 必须 禁止 更 新 条 件 码 寄存 器 或 是 数据 内 存 。 在 上 面 的 
示例 程序 中 ， 控 制 逻辑 会 发 现 访 存 阶段 中 的 pushq 导致 了 异常 ， 因 此 应 该 禁止 adda 指令 
更 新 条 件 码 寄存 器 。 
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让 我 们 来 看 看 这 种 处 理 异 常 的 方法 是 怎样 解决 刚才 提 到 的 那些 细节 问题 的 。 当 流水 线 
中 有 一 个 或 多 个 阶段 出 现 异 常 时 ,信息 只 是 简单 地 存放 在 流水 线 寄存 器 的 状态 字段 中 。 异 
常事 件 不 会 对 流水 线 中 的 指令 流 有 任何 影响 ， 除 了 会 禁止 流水 线 中 后 面 的 指令 更 新 程序 员 
可 见 的 状态 (条 件 码 寄 存 器 和 内 存 )， 直 到 异常 指令 到 达 最 后 的 流水 线 阶 段 。 因 为 指令 到 达 
写 回 阶段 的 顺序 与 它们 在 非 流水 线 化 的 处 理 器 中 执行 的 顺序 相同 ， 所 以 我 们 可 以 保证 第 一 
条 遇 到 异常 的 指令 会 第 一 个 到 达 写 回 阶段 ， 此 时 程序 执行 会 停止 ， 流 水 线 寄 存 器 W 中 的 
状态 码 会 被 记录 为 程序 状态 。 如 果 取 出 了 某 条 指令 ， 过 后 又 取消 了 ， 那 么 所 有 关于 这 条 指 
令 的 异常 状态 信息 也 都 会 被 取消 。 所 有 导致 异常 的 指令 后 面 的 指令 都 不 能 改变 程序 员 可 见 
的 状态 。 携 带 指令 的 异常 状态 以 及 所 有 其 他 信息 通过 流水 线 的 简单 原则 是 处 理 异 常 的 简单 
而 可 靠 的 机 制 。 


4. 5.7 PIPE 各 阶段 的 实现 


现在 我 们 已 经 创建 了 PIPE 的 整体 结构 ，PIPE 是 我 们 使 用 了 转发 技术 的 流水 线 化 的 
Y86-64 处 理 器 。 它 使 用 了 一 组 与 前 面 顺序 设计 相同 的 硬件 单元 ， 另 外 增加 了 一 些 流水 线 
寄存 器 、 一 些 重新 配置 了 的 逻辑 块 ， 以 及 增加 的 流水 线 控制 逻辑 。 在 本 节 中 ， 我 们 将 浏览 
各 个 逻辑 块 的 设计 ， 而 将 流水 线 控制 逻辑 的 设计 放 到 下 一 节 中 介绍 。 许 多 逻辑 块 与 SEQ 
和 SEQ 十 中 相应 部 件 完 全 相同 ， 除 了 我 们 必须 从 来 自 不 同 流水 线 寄 存 器 (用 大 写 的 流水 线 
寄存 器 的 名 字 作 为 前 级 ) 或 来 自 各 个 阶段 计算 (用 小 写 的 阶段 名 字 的 第 一 个 字母 作为 前 级 ) 
的 信号 中 选择 适当 的 值 。 

作为 一 个 示例 ， 比 较 一 下 SEQ 中 产生 srca 信号 的 逻辑 的 HCL 代码 与 PIPE 中 相应 
的 代码 : 

# Code from SEQ 


word srcA = [ 
icode in { IRRMOVQ, IRMMOVQ, IOPQ, IPUSHQ } : rA; 
icode in { IPOPQ, IRET } : RRSP; 
1 : RNONE; # Don't need register 


# Code from PIPE 


word d_srcA = [ 
D_icode in { IRRMOVQ, IRMMOVQ, IOPQ, IPUSHQ } : D_rA; 
D_icode in { IPOPQ, IRET } : RRSP; 
1 : RNONE; # Don't need register 
EE 、 
它们 的 不 同 之 处 只 在 于 PIPE 信号 都 加 上 了 前 级 : “D ”表示 源 值 ， 以 表明 信号 是 来 
自流 水 线 寄存 器 D， 而 “Gd ”表示 结果 值 ， 以 表明 它 是 在 译 码 阶段 中 产生 的 。 为 了 避免 重 
复 ， 我 们 在 此 就 不 列 出 那些 与 SEQ 中 代码 只 有 名 字 前 缀 不 同 的 块 的 HCL 代码 。 网 络 旁 注 
ARCH :HCL 中 列 出 了 完整 的 PIPE 的 HCL 代码 。 
1. PC 选择 和 取 指 阶段 
图 4-57 提供 了 PIPE 取 指 阶段 逻辑 的 一 个 详细 描述 。 像 前 面 讨 论 过 的 那样 ， 这 个 阶段 
必须 选择 程序 计数 器 的 当前 值 ， 并 且 预 测 下 一 个 PC 值 。 用 于 从 内 存 中 读 取 指令 和 抽取 不 
同 指令 字段 的 硬件 单元 与 SEQ 中 考虑 的 那些 一 样 ( 参 见 4. 3. 4 节 中 的 取 指 阶段 )。 





W_icode 
W_valM 





图 4-57 PIPE 的 PC 选择 和 取 指 逻辑 。 在 一 个 周期 的 时 间 限 制 内 ， 处 理 器 只 能 预测 下 一 条 指令 的 地 址 


PC 选择 逻辑 从 三 个 程序 计数 器 源 中 进行 选择 。 当 一 条 预测 错误 的 分 支 进 入 访 存 阶段 
时 ， 会 从 流水 线 寄存 器 M( 信 和 号 M_valA) 中 读 出 该 指令 valP 的 值 (指明 下 一 条 指令 的 地 
址 )。 当 ret 指令 进入 写 回 阶段 时 ， 会 从 流水 线 寄存 器 W( 信 号 W_valM) 中 读 出 返回 地 址 。 
其 他 情况 会 使 用 存放 在 流水 线 寄存 器 F( 信 号 F_predPc) 中 的 PC 的 预测 值 : 

word f_pc = [ 

# Mispredicted branch. Fetch at incremented PC 
M_icode == IJXX && !M_Cnd : M_valh; 

# Completion of RET instruction 

W_icode == IRET : W_valM; 

# Default: Use predicted value of PC 

1 : F_predPC; 

] ; 

当 取出 的 指令 为 函数 调用 或 跳 转 时 ，PC 预测 逻辑 会 选择 valc， 否 则 就 会 选择 valP: 

word f_predPC = [ 

f_icode in { IJXX, ICALL + : f_valC; 
Ps 

]; 

标号 为 “Instr valid”、“Need regids” 和 “Need valC” 的 逻辑 块 和 SEQ 中 的 一 样 ， 使 
用 了 适当 命名 的 源 信和 号。 

同 SEQ 中 不 一 样 ， 我 们 必须 将 指令 状态 的 计算 分 成 两 个 部 分 。 在 取 指 阶段 ， 可 以 测 
试 由 于 指令 地 址 越界 引起 的 内 存 错 误 ， 还 可 以 发 现 非法 指令 或 halt 指令 。 必 须 推迟 到 访 
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存 阶段 才能 发 现 非法 数据 地 址 。 
证 练习 题 4.30 写 出 信号 f_stat 的 HCL 代码， 提供 取出 的 指令 的 临时 状态 。 

2. 译 码 和 写 回 阶段 

图 4-58 是 PIPE 的 译 码 和 写 回 逻 辑 的 详细 说 明 。 标 号 为 “gdstE”、“dstM”、“srcAa” 
和 “srcB” 的 块 非常 类 似 于 它们 在 SEQ 的 实现 中 的 相应 部 件 。 我 们 观察 到 ， 提 供给 写 端 
口 的 寄存 器 ID 来 自 于 写 回 阶段 (信和 号 W_dstE 和 WwW dstM) ， 而 不 是 来 自 于 译 码 阶段 。 这 是 
因为 我 们 希望 进行 写 的 目的 寄存 器 是 由 写 回 阶段 中 的 指令 指定 的 。 

e_dstE 


e_valE 


M_dstE 
M_valE 
M_dstM 
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图 4-58 PIPE 的 译 码 和 写 回 阶段 逻辑 。 没 有 指令 既 需 要 valP 又 需要 来 自 寄 存 器 端口 A 中 读 出 的 值 ， 因 此 
对 后 面 的 阶段 来 说 ， 这 两 者 可 以 合并 为 信号 valA。 标 号 为 “Sel 十 Fwd A” 的 块 执行 该 任务 ， 并 实 
现 源 操作 数 vala 的 转发 逻辑 。 标 号 为 “Fwd B” 的 块 实现 源 操作 数 valB 的 转发 逻辑 。 寄 存 器 写 的 
位 置 是 由 来 自 写 回 阶段 的 dstE 和 dstM 信号 指定 的 ， 而 不 是 来 自 于 译 码 阶段 ， 因 为 它 要 写 的 是 
当前 正在 写 回 阶段 中 的 指令 的 结果 

让 要 练习 题 4.31 译 码 阶 段 中 标号 为 “dstE” 的 块根 据 来 自流 水 线 寄 存 器 D 中 取出 的 指 

令 的 各 个 字段 ， 产 生 寄 存 器 文件 下 端口 的 寄存 器 ID。 在 PIPE 的 HCL 描述 中 ， 得 到 
的 信和 号 命名 为 da_dstE。 根 据 SEQ 信号 dstE 的 HCL 描述 ， 写 出 这 个 信号 的 HCL 代 
码 。( 参 考 4.3.4 节 中 的 译 码 阶段 。) 目 前 还 不 用 关心 实现 条 件 传 送 的 逻辑 。 

这 个 阶段 的 复杂 性 主要 是 跟 转发 逻辑 相关 。 就 像 前 面 提 到 的 那样 ， 标 号 为 “Sel 十 Fwd 

A” 的 块 扮演 两 个 角色 。 它 为 后 面 的 阶段 将 valP 信号 合并 到 valA 信和 号， 这样 可 以 减少 流 

水 线 寄存 器 中 状态 的 数量 。 它 还 实现 了 源 操作 数 vala 的 转发 逻辑 。 











合并 信号 valA 和 valP 的 依据 是 ， 只 有 call 和 跳 转 指令 在 后 面 的 阶段 中 需要 valP 
的 值 ， 而 这 些 指令 并 不 需要 从 寄存 器 文件 A 端口 中 读 出 的 值 。 这 个 选择 是 由 该 阶段 的 
icode 信号 来 控制 的 。 当 信号 D icode 与 call 或 jXx 的 指令 代码 相 匹 配 时 ， 这 个 块 就 会 
选择 D_valP 作为 它 的 输出 。 

4. 5.5 节 中 提 到 有 5 个 不 同 的 转发 源 ， 每 个 都 有 一 个 数据 字 和 一 个 目的 寄存 器 ID， 

















数据 字 寄存 器 ID 源 描述 

e_valE e_dstE ALU 输出 

m valM M dst™ 内 存 输出 

M valE M dstE 访 存 阶段 中 对 端口 下 未 进行 的 写 
W valM W_dstM 写 回 阶段 中 对 端口 M 未 进行 的 写 
W_valE W_dstE 写 回 阶段 中 对 端口 术 进 行 的 写 











如 果 不 满足 任何 转发 条 件 ， 这 个 块 就 应 该 选择 a_rvala 作为 它 的 输出 ， 也 就 是 从 寄 
存 器 端口 A 中 读 出 的 值 。 
综 上 所 述 ， 我 们 得 到 以 下 流水 线 寄存 器 下 的 vala 新 值 的 HCL 描述 : 


word d_valA = [ 
D_icode in { ICALL, IJXX } : D_valP; # Use incremented PC 


d_srch == e_dstE : e_valE; # Forward valE from execute 
d_srchA == M_dstM : m_valM,; # Forward valM from memory 
d_srch == M_dstE : M_valE; # Forward valE from memory 
d_srcA == W_dstM : W_valM; # Forward valM from write back 
d_srchA == W_dstE : W_valE; # Forward valE from Write back 


1 : d_rvalA; # Use value read from register file 

]; 

上 述 HCL 代码 中 赋予 这 5 个 转发 源 的 优先 级 是 非常 重要 的 。 这 种 优先 级 是 由 HCL 代码 
中 检测 5 个 目的 寄存 器 ID 的 顺序 来 确定 的 。 如 果 选 择 了 其 他 任何 顺序 ， 对 某 些 程序 来 说 ， 
流水 线 就 会 出 错 。 图 4-59 给 出 了 一 个 程序 示例 ， 要 求 对 执行 和 访 存 阶段 中 的 转发 源 设置 正确 
的 优先 级 。 在 这 个 程序 中 ， 前 两 条 指令 写 寄存 器 szdx， 而 第 三 条 指令 用 这 个 寄存 器 作为 它 的 
源 操作 数 。 当 指令 rrmovq 在 周期 4 到 达 译 码 阶段 时 ， 转 发 逻辑 必须 在 两 个 都 以 该 源 寄 存 器 
为 目的 的 值 中 选择 一 个 。 它 应 该 选择 哪 一 个 呢 ? 为 了 设 定 优先 级 ， 我 们 必须 考虑 当 一 次 执行 
一 条 指令 时 ， 机 器 语言 程序 的 行为 。 第 一 条 irmovqa 指令 会 将 寄存 器 srqx 设 为 10， 第 二 条 
irmovq 指令 会 将 之 设 为 3， 然后 rrmovq 指令 会 从 srdx 中 读 出 3。 为 了 模拟 这 种 行为 ， 流 水 
线 化 的 实现 应 该 总 是 给 处 于 最 早 流水 线 阶 段 中 的 转发 源 以 较 高 的 优先 级 ， 因 为 它 保持 着 程序 
序列 中 设置 该 寄存 器 的 最 近 的 指令 。 因 此 ， 上 述 HCL 代码 中 的 逻辑 首先 会 检测 执行 阶段 中 
的 转发 源 ， 然 后 是 访 存 阶段 ， 最 后 才 是 写 回 阶段 。 只 有 指令 popq srsp 会 关心 在 访 存 或 写 回 
阶段 中 的 两 个 源 之 间 的 转发 优先 级 ， 因 为 只 有 这 条 指令 能 同时 写 两 个 寄存 器 。 
KS 练习 题 4.32 假设 d_valaA 的 HCL 代码 中 第 三 和 第 四 种 情况 (来 自 访 存 阶段 的 两 个 转 

发 源 ) 的 顺序 是 反 过 来 的 。 请 描述 下 列 程序 中 rrmovq 指令 (第 5 行 ) 造 成 的 行为 : 
irmovg $5, %rdx 
irmovg $0Ox100,%rsp 
rmmovq %rdx,0(%rsp) 


Popq %rsp 
rrmovd %rsp,%rax 





wD 
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# prog8 中 2 3 4 
Ox000: irmovg $10,%rdx 
Ox00a: irmovg $3,%rdx 
Ox014: rrmovg %rdx,%rax 
Ox016: halt 








M_dstE = %rdx 
M_valE = 10 
E_dstE = %rdx 
e_VvalE 4 一 0 + 3 


vaA te valE -3 


















图 4-59 转发 优先 级 的 说 明 。 在 周期 4 中 ,%rdx 的 值 既 可 以 从 执行 阶段 也 可 以 从 访 存 阶 段 得 到 。 
转发 逻辑 应 该 选择 执行 阶段 中 的 值 ， 因 为 它 代 表 最 近 产 生 的 该 寄存 器 的 值 


SN 练习 题 4.33 假设 dvalR 的 HCL 代码 中 第 五 和 第 六 种 情况 (来 自 写 回 阶段 的 两 个 转 
发 源 ) 的 顺序 是 反 过 来 的 。 写 出 一 个 会 运行 错误 的 Y86-64 程序 。 请 描述 错误 是 如 何 发 
生 的 ， 以 及 它 对 程序 行为 的 影响 。 

区 S 练习 题 4.34 根据 提供 到 流水 线 寄存 器 下 的 源 操作 数 valB 的 值 ， 写 出 信号 d_valB 
的 HCL 代码 。 

写 回 阶段 的 一 小 部 分 是 保持 不 变 的 。 如 图 4-52 所 示 ， 整 个 处 理 器 的 状态 Stat 是 一 
个 块根 据 流水 线 寄存 器 W 中 的 状态 值 计算 出 来 的 。 回 想 一 下 4.1.1 节 ， 状 态 码 应 该 指 
明 是 正常 操作 (AOK)， 还 是 三 种 异常 条 件 中 的 一 种 。 由 于 流水 线 寄存 器 W 保存 着 最 近 完 
成 的 指令 的 状态 ， 很 自然 地 要 用 这 个 值 来 表示 整个 处 理 器 状态 。 唯 一 要 考虑 的 特殊 情况 
是 当 写 回 阶段 有 气泡 时 。 这 是 正常 操作 的 一 部 分 ， 因 此 对 于 这 种 情况 ， 我 们 也 希望 状态 
但 是 AOK;: 


word Stat = [ 
W_stat == SBUB : SAOK; 
1 : W_stat; 








1 

3. 执行 阶段 

图 4-60 展现 的 是 PIPE 执行 阶段 的 逻辑 。 这 些 硬件 单元 和 逮 辑 块 同 SEQ 中 的 相同 ， 
使 用 的 信号 做 适当 的 重 命名 。 我 们 可 以 看 到 信号 es valE 和 e_dstE 作为 转发 源 ， 指 向 译 
码 阶 段 。 一 个 区 别 是 标号 为 “Set CC” 的 逻辑 以 信号 m_stat 和 W stat 作为 输入 ， 这 个 
逻辑 决定 了 是 否 要 更 新 条 件 码 。 这 些 信 号 被 用 来 检查 一 条 导致 异常 的 指令 正在 通过 后 面 的 
流水 线 阶 段 的 情况 ， 因 此 ， 任何 对 条 件 码 的 更 新 都 会 被 上 这 部 分 设计 在 4. 5. 8 节 中 ， 


讨论 。 














图 4-60 PIPE 的 执行 阶段 逻辑 。 这 一 部 分 的 设计 与 SEQ 实现 中 的 逻辑 非常 相似 


练习 题 4.35 ad _valA 的 HCL 代码 中 的 第 二 种 情况 使 用 了 信号 e dstE， 来 判断 是 否 
要 选择 ALU 的 输出 e_ valE 作为 转发 源 。 假 设 我 们 用 己 dstE， 也 就 是 流水 线 寄存 器 
正中 的 目的 寄存 器 ID， 来 作为 这 个 选择 。 写 出 一 个 采用 这 个 修改 过 的 转发 逻辑 就 会 产 
生 错 误 结 果 的 Y86-64 程序 。 

4. 访 存 阶段 
4-61 是 PIPE 的 访 存 阶段 逻辑 。 将 这 个 逻辑 与 SEQ 的 访 存 阶段 (图 4-30) 相 比较 ， 

我 们 看 到 ， 正 如 前 面 提 到 的 那样 ，PIPE 中 没有 SEQ 中 标号 为 “Data” 的 块 。 这 个 块 是 用 

来 在 数据 源 valP( 对 call 指令 来 说 ) 和 vala 中 进行 选择 的 ， 但 是 这 个 选择 现在 由 译 码 阶 

段 中 标号 为 “Sel 十 Fwd A” 的 块 来 执行 。 这 个 阶段 中 的 其 他 块 都 和 SEQ 中 相应 的 部 件 相 

同 , 采用 的 信号 做 适当 的 重 命名 。 在 图 中 ， 你 还 可 以 看 到 许多 流水 线 寄存 器 M 和 W 中 的 

值 作为 转发 和 流水 线 控制 逻辑 的 一 部 分 ， 提 供给 电路 中 其 他 部 分 。 








图 4-61 PIPE 的 访 存 阶段 逻辑 。 许 多 从 流水 线 寄存 器 M 和 W 来 的 信号 被 传递 到 较 早 的 阶段 ， 
以 提供 写 回 的 结果 、 指 令 地 址 以 及 转发 的 结果 
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局 SN 练习 题 4.36 在 这 个 阶段 中 ， 通 过 检查 数据 内 存 的 非法 地 址 情况 ， 我 们 能 够 完成 状 
态 码 Stat 的 计算 。 写 出 信号 m_stat 的 HCL 代码 。 





4.5.8 流水 线 控制 逻辑 

现在 准备 创建 流水 线 控制 逻辑 ， 完 成 我 们 的 PIPE 设计 。 这 个 逻辑 必须 处 理 下 面 4 种 
控制 情况 ， 这 些 情况 是 其 他 机 制 (例如 数据 转发 和 分 支 预测 ) 不 能 处 理 的 : 

加 载 /使 用 冒险 : 在 一 条 从 内 存 中 读 出 一 个 值 的 指令 和 一 条 使 用 该 值 的 指令 之 间 ， 流 
水 线 必须 暂停 一 个 周期 。 

处 理 ret: 流水 线 必须 暂停 直到 ret 指令 到 达 写 回 阶段 。 

预测 错误 的 分 支 ; 在 分 支 逻 辑 发 现 不 应 该 选择 分 支 之 前 ， 分 支 目 标 处 的 几 条 指令 已 经 
进入 流水 线 了 。 必 须 取消 这 些 指令 ,并 从 跳 转 指令 后 面 的 那 条 指令 开始 取 指 。 

异常 ， 当 一 条 指令 导致 异常 ， 我 们 想 要 禁止 后 面 的 指令 更 新 程序 员 可 见 的 状态 ， 并 且 
在 异常 指令 到 达 写 回 阶段 时 ， 停 止 执行 。 

我 们 先 浏览 每 种 情况 所 期 望 的 行为 ， 然 后 再 设计 处 理 这 些 情况 的 控制 逻辑 。 

1. 特殊 控制 情况 所 期 望 的 处 理 

在 4.5.5 节 中 ,我 们 已 经 描述 了 对 加 载 /使 用 冒险 所 期 望 的 流水 线 操作 ， 如 图 4-54 所 
示 。 只 有 mrmovq 和 popq 指令 会 从 内 存 中 读数 据 。 当 这 两 条 指令 中 的 任 一 条 处 于 执行 阶 
段 ， 并 且 需 要 该 目的 寄存 器 的 指令 正 处 在 译 码 阶段 时 ， 我 们 要 将 第 二 条 指令 阻塞 在 译 码 阶 
段 ， 并 在 下 一 个 周期 往 执行 阶段 中 插入 一 个 气泡 。 此 后 ， 转 发 逻辑 会 解决 这 个 数据 冒险 。 
可 以 将 流水 线 寄存 器 D 保 持 为 固定 状态 ， 从 而 将 一 个 指令 阻塞 在 译 码 阶段 。 这 样 做 还 可 以 
保证 流水 线 寄存 器 下 保持 为 固定 状态 ， 由 此 下 一 条 指令 会 被 再 取 一 次 。 总 之 ， 实 现 这 个 流 
水 线 流 需 要 发 现 冒 险 的 情况 ， 保 持 流水 线 寄 存 器 FE 和 D 固 定 不 变 ， 并 且 在 执行 阶段 中 搬入 
气泡 。 

对 ret 指令 的 处 理 ， 我 们 已 经 在 4. 5. 5 节 中 描述 了 所 需 的 流水 线 操作 。 流 水 线 要 停顿 
3 个 时 钟 周期 ， 直 到 ret 指令 经 过 访 存 阶段 ， 读 出 返回 地 址 。 通 过 图 4-55 中 下 面 程序 的 处 
理 的 简化 流水 线 图 ， 说 明了 这 种 情况 


Ox000: irmovg stack,%rsp # Initialize stack pointer 
Ox00a: call proc # Procedure call 

0x013: irmovg $10,%rdx # Return point 

Ox01d: halt 

Ox020: .pos Ox20 

Ox020: proc: # proc: 

Ox020: ret # Return immediately 
Ox021: rrmovd %rdx,%rbx # Not executed 

Ox030: .pos 0x30 

Ox030: stack: # stack: Stack pointer 


图 4-62 是 示例 程序 中 ret 指令 的 实际 处 理 过 程 。 在 此 可 以 看 到 ， 没有 办 法 在 流水 线 
的 取 指 阶段 中 插入 气泡 。 每 个 周期 ， 取 指 阶 段 从 指令 内 存 中 读 出 一 条 指令 。 看 看 4.5.7 市 
中 实现 PC 预测 逻辑 的 HCL 代码 ， 我 们 可 以 看 到 ， 对 ret 指令 来 说 ，PC 的 新 值 被 预测 成 
valP， 也 就 是 下 一 条 指令 的 地 址 。 在 我 们 的 示例 程序 中 ， 这 个 地 址 会 是 0x021， 即 ret 后 
面 rrmova 指令 的 地 址 。 对 这 个 例子 来 说 ， 这 种 预测 是 不 对 的 ， 即 使 对 大 部 分 情况 来 说 ， 
也 是 不 对 的 ， 但 是 在 设计 中 ， 我 们 并 不 试图 正确 预测 返回 地 址 。 取 指 阶段 会 暂停 3 个 时 钟 
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周期 ， 导 致 取出 rrmova 指令 ， 但 是 在 译 码 阶段 就 被 蔡 换 成 了 气泡 。 这 个 过 程 在 图 4-62 中 的 
表示 为 ，3 个 取 指 用 箭头 指向 下 面 的 气泡 ， 气 泡 会 经 过 剩 下 的 流水 线 阶段 。 最 后 ， 在 周期 
7 取出 irmovq 指令 。 比 较 图 4-62 和 图 4-55， 可 以 看 到 ， 我 们 的 实现 达到 了 期 望 的 效果 ， 
只 不 过 连续 3 个 周期 取出 了 不 正确 的 指令 。 











# prog6 1 2 3 4 5 6 8 9 各 11 

Ox000: irmovg Stack,%rsp 

Ox00a: call proc 

Ox020: ret 

Ox021: rrmovg hrdx,%hrbx # Not executed 
bubble 

Ox021: rrmovg hrdx,%rbx # Not executed 
bubble 

Ox021: rrmovg hrdx,%rbx # Not executed 
bubble 

Ox013: irmovg $10,%rdx # Return point 















图 4-62 ret 指令 的 详细 处 理 过 程 。 取 指 阶段 反复 取出 ret 指令 后 面 的 rrmova 指令 ,但 是 流水 线 控制 
逻辑 在 译 码 阶段 中 插入 气泡 ， 而 不 是 让 rrmovq 指令 继续 下 去 。 由 此 得 到 的 行为 与 图 4-55 所 
示 的 等 价 


当 分 支 预测 错误 发 生 时 ， 我们 已 经 在 4. 5. 5 节 中 描述 了 所 需 的 流水 线 操作 ， 并 用 图 4- 
56 进行 了 说 明 。 当 跳 转 指令 到 达 执 行 阶段 时 就 可 以 检测 到 预测 错误 。 然 后 在 下 一 个 时 钟 
周期 ， 控 制 逻辑 就 会 在 译 码 和 执行 段 插 入 气泡 ， 取 消 两 条 不 正确 的 已 取 指 令 。 在 同一 个 时 
钟 周期 流水线 将 正确 的 指令 读 取 到 取 指 阶段 。 

对 于 导致 异常 的 指令 ， 我们 必须 使 流水 线 化 的 实现 符合 期 望 的 ISA 行为 ， 也 就 是 在 前 
面 所 有 的 指令 结束 前 ， 后 面 的 指令 不 能 影响 程序 的 状态 。 一 些 因 素 会 使 得 想 达 到 这 些 效 果 
比较 麻烦 : 1) 异常 在 程序 执行 的 两 个 不 同 阶段 ( 取 指 和 访 存 ) 被 发 现 的 ，2) 程 序 状态 在 三 
个 不 同 阶 段 (执行 、 访 存 和 写 回 ) 被 更 新 。 

在 我 们 的 阶段 设计 中 ， 每 个 流水 线 寄存 器 中 会 包含 一 个 状态 码 stat， 随 着 每 条 指令 
经 过 流水 线 阶段 ， 它 会 记录 指令 的 状态 。 当 异常 发 生 时 ,我 们 将 这 个 信息 作为 指令 状态 的 
一 部 分 记录 下 来 ， 并 且 继 续 取 指 、 译 码 和 执行 指令 ， 就 好 像 什么 都 没有 出 错 似 的 。 当 异常 
间 令 到 达 访 存 阶段 时 ， 我 们 会 采取 措施 防止 后 面 的 指令 修改 程序 员 可 见 的 状态 : 1) 禁止 
执行 阶段 中 的 指令 设置 条 件 码 ，2) 向 内 存 阶 段 中 插入 气泡 ， 以 禁止 向 数据 内 存 中 写 入 ， 
3) 当 写 回 阶段 中 有 异常 指令 时 ， 和 暂停 写 回 阶段 ， 因 而 暂停 了 流水 线 。 

图 4-63 中 的 流水 线 图 说 明了 我 们 的 流水 线 控制 如 何 处 理 导致 异常 的 指令 后 面 跟 着 一 条 会 
改变 条 件 码 的 指令 的 情况 。 在 周期 6，pushg 指令 到 达 访 存 阶 段 ， 产 生 一 个 内 存 错误 。 在 同 
一 个 周期 ， 执 行 阶 段 中 的 addq 指令 产生 新 的 条 件 码 的 值 。 当 访 存 或 者 写 回 阶段 中 有 异常 指 
令 时 (通过 检查 信号 m_stat 和 WwW stat， 然 后 将 信号 set_cc 设置 为 0) ， 禁 止 设 置 条 件 码 。 在 
图 4-63 的 例子 中 ， 我 们 还 可 以 看 到 既 向 访 存 阶 段 插 入 了 和 气泡， 也 在 写 回 阶段 暂停 了 异常 指 
令 一 一 pushq 指 令 在 写 回 阶段 保持 暂停 ， 后 面 的 指令 都 没有 通过 执行 阶段 。 

对 状态 信号 流水 线 化 ， 控 制 条 件 码 的 设置 ， 以 及 控制 流水 线 阶 段 一 一 将 这 些 结合 
来 ， 我 们 实现 了 对 异常 的 期 望 的 行为 : 异常 指令 之 前 的 指令 都 完成 了 ， 而 后 面 的 指令 对 程 


316 ”第 一 部 分 程序 结构 和 执行 








序 员 可 见 的 状态 都 没有 影响 。 


0Ox00c: Pushq %rax 
Ox00e: addq 杀 ax，%rax 
Ox010: irmovg $2,%rax 











mem_error =1 本 一 


New CC = 000 


图 4-63 处 理 非法 内 存 引 用 异常 。 在 周期 6，pushq 指令 的 非法 内 存 引用 导致 禁止 更 新 条 件 码 。 流 水 
线 开始 往 访 存 阶段 插入 气泡 ， 并 在 写 回 阶段 暂停 异常 指令 


2. 发 现 特殊 控制 条 件 

图 4-64 总 结 了 需要 特殊 流水 线 控制 的 条 件 。 它 给 出 的 表达 式 描 述 了 在 哪些 条 件 下 会 
出 现 这 三 种 特殊 情况 。 一 些 简单 的 组 合 逻 辑 块 实现 了 这 些 表达 式 ， 为 了 在 时 钟 上 升 开始 下 
一 个 周期 时 控制 流水 线 寄存 器 的 活动 ， 这 些 块 必须 在 时 钟 周期 结束 之 前 产生 出 结果 。 在 一 
个 时 钟 周期 内 ， 流 水 线 寄存 器 D、E 和 M 分 别 保 持 着 处 于 译 码 、 执 行 和 访 存 阶段 中 的 指令 
的 状态 。 在 到 达 时 钟 周期 末尾 时 ， 信 号 d_srcA 和 9_srcB 会 被 设置 为 译 码 阶 段 中 指令 的 
源 操作 数 的 寄存 器 ID。 当 ret 指令 通过 流水 线 时 ， 要 想 发 现 它 ， 只 要 检查 译 码 、 执 行 和 
访 存 阶段 中 指令 的 指令 码 。 发 现 加 载 /使 用 冒险 要 检查 执行 阶段 中 的 指令 类 型 (mrmovq 或 
popq)， 并 把 它 的 目的 寄存 器 与 译 码 阶段 中 指令 的 源 寄存 器 相 比 较 。 当 跳 转 指令 在 执行 阶 
段 时 ， 流 水 线 控 制 逻辑 应 该 能 发 现 预测 错误 的 分 支 ， 这 样 当 指令 进入 访 存 阶段 时 ， 它 就 能 
设置 从 错误 预测 中 恢复 所 需要 的 条 件 。 当 跳 转 指令 处 于 执行 阶段 时 ， 信 和 号 e_cnq 指明 是 否 
要 选择 分 支 。 通 过 检查 访 存 和 写 回 阶段 中 的 指令 状态 值 ， 就 能 发 现 异常 指令 。 对 于 访 存 阶 
段 ， 我们 使 用 在 这 个 阶段 中 计算 出 来 的 信号 m_stat， 而 不 是 使 用 流水 线 寄存 器 的 M_ 
stat。 这 个 内 部 信号 包含 着 可 能 的 数据 内 存 地 址 错误 。 


| 条 件 。 ”触发 条 件 
处 理 ret IRETE {D_icode,E_icode, M_icode} 
加 载 /使 用 冒险 E_icodeE {IMRMOVL,IPOPL} & &E_dstME {d_srcA,d_srcB} 
预测 错误 的 分 支 E_icode 一 IJXX& &! e_Cnd 
异常 m_stat€ {SADR, SINS, SHLT} | | W_stat€ {SADR, SINS, SHLT} 


图 4-64 ”流水线 控制 逻辑 的 检查 条 件 。 四 种 不 同 的 条 件 要 求 改 变 流水 线 ， 
暂停 流水 线 或 者 取消 已 经 部 分 执行 的 指令 


3. 流水 线 控制 机 制 
图 4-65 是 一 些 低级 机 制 ， 它 们 使 得 流水 线 控制 逻辑 能 将 指令 阻塞 在 流水 线 寄 存 器 中 ， 
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或 是 往 流水 线 中 插入 一 个 气泡 。 这 些 机 制 包括 对 4. 2. 5 节 中 描述 的 基本 时 钟 寄 存 器 的 小 扩 
展 。 假 设 每 个 流水 线 寄存 器 有 两 个 控制 输入 : 暂停 (stall) 和 气泡 (bubble) 。 这 些 信 号 的 设 
置 决 定 了 当时 钟 上 升 时 该 如 何 更 新 流水 线 寄存 器 。 在 正常 操作 下 (图 4-65a)， 这 两 个 输入 
都 设 为 0， 使 得 寄存 器 加 载 它 的 输入 作为 新 的 状态 。 当 暂停 信号 设 为 1 时 (图 4-65b) ， 禁 止 
更 新 状态 。 相 反 ， 寄 存 器 会 保持 它 以 前 的 状态 。 这 使 得 它 可 以 将 指令 阻塞 在 某 个 流水 线 阶 
段 中 。 当 气泡 信号 设置 为 1 时 (图 4-65c) ， 寄 存 器 状态 会 设置 成 某 个 固定 的 复位 配置 (reset 
configuration) ， 得 到 一 个 等 效 于 nop 指令 的 状态 。 一 个 流水 线 寄存 器 的 复位 配置 的 0、1 
模式 是 由 流水 线 寄存 器 中 字段 的 集合 决定 的 。 例 如 ， 要 往 流 水 线 寄存 器 D 中 插入 一 个 气 
泡 ， 我们 要 将 icode 字段 设置 为 常数 值 INOP( 图 4-26) 。 要 往 流水 线 寄 存 器 正中 捅 人 一 个 
气泡 ， 我们 要 将 icode 字段 设 为 INOP， 并 将 dstE、dstM、srcA 和 srcB 字段 设 为 常数 
RNONE。 确 定 复 位 配置 是 硬件 设计 师 在 设计 流水 线 寄 存 器 时 的 任务 之 一 。 在 此 我 们 不 讨论 
细节 。 我 们 会 将 气泡 和 暂停 信号 都 设 为 1 看 成 是 出 错 。 





状态 =x 状态 =y 
输出 =y 
= 时 钟 上 升 治 。 =》 
eb i 
a) 正常 
状态 =x 
输出 =x 
= 时 钟 上 升 沿 。 > E 
b) 暂停 
状态 =nop 
输出 = 
一 时 钟 上 升 沾 。 网 本 ne， 
二 二 误导 
b) 气泡 


图 4-65 附加 的 流水 线 寄存 器 操作 。a) 在 正常 条 件 下 ， 当 时 钟 上 升 时 ， 寄 存 器 的 状态 和 输出 被 设置 
成 输入 的 值 ，b) 当 运行 在 暂停 模式 中 时 ， 状 态 保持 为 先前 的 值 不 变 ; c) 当 运 行 在 气泡 模式 

中 时 ， 会 用 nop 操作 的 状态 覆盖 当前 状态 
图 4-66 中 的 表 给 出 了 各 个 流水 线 寄 存 器 在 三 种 特殊 情况 下 应 该 采取 的 行动 。 对 每 种 
情况 的 处 理 都 是 对 流水 线 寄 存 器 正常 、 暂 停 和 气泡 操作 的 某 个 组 合 。 在 时 序 方面 ， 流 水 线 
寄存 器 的 暂停 和 气泡 控制 信号 是 由 组 合 逻 辑 块 产生 的 。 当 时 钟 上 升 时 ， 这 些 值 必须 是 合法 
的 ， 使 得 当下 一 个 时 钟 周期 开始 时 ， 每 个 流水 线 寄存 器 要 么 加 载 ， 要 么 暂停 ， 要 么 产生 气 
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泡 。 有 了 这 个 对 流水 线 寄存 器 设计 的 小 扩展 ， 我 们 就 能 用 组 合 逻 辑 、 时 钟 寄 存 器 和 随机 访 
问 存储 器 这 样 的 基本 构建 块 ， 来 实现 一 个 完整 的 、 包 括 所 有 控制 的 流水 线 。 
































流水 线 寄存 器 
条 件 
EB D EB M Ww 
处 理 ret 暂停 气泡 正常 正常 正常 
加 载 /使 用 冒险 暂停 暂停 气泡 正常 正常 
预测 错误 的 分 支 正常 气泡 气泡 正常 正常 
图 4-66 流水线 控 制 逻辑 的 动作 。 不 同 的 条 件 需 要 改变 流水 线 流 ， 或 者 会 暂停 流水 线 ， 


或 者 会 取消 部 分 已 执行 的 指令 


4. 控制 条 件 的 组 合 

到 目前 为 止 ， 在 我 们 对 特殊 流水 线 控制 条 件 的 讨论 中 ， 假 设 在 任意 一 个 时 钟 周期 内 ， 
最 多 只 能 出 现 一 个 特殊 情况 。 在 设计 系统 时 ， 一 个 常见 的 缺陷 是 不 能 处 理 同时 出 现 多 个 特 
殊 情况 的 情形 。 现 在 来 分 析 这 些 可 能 性 。 我 们 不 需要 担心 多 个 程序 异常 的 组 合 情 况 ， 因 为 
已 经 很 小 心地 设计 了 异常 处 理 机 制 ， 它 能 够 考虑 流水 线 中 其 他 指令 的 情况 。 图 4-67 画 出 
了 导致 其 他 三 种 特殊 控制 条 件 的 流水 线 状 态 。 图 中 所 示 的 是 译 码 、 执 行 和 访 存 阶段 的 块 。 
暗色 的 方 框 代表 要 出 现 这 种 条 件 必须 要 满足 的 特别 限制 。 加 载 /使 用 冒险 要 求 执行 阶段 中 
的 指令 将 一 个 值 从 内 存 读 到 寄存 器 中 ， 同 时 译 码 阶段 中 的 指令 要 以 该 寄存 器 作为 源 操作 
数 。 预 测 错误 的 分 支 要 求 执行 阶段 中 的 指令 是 一 个 跳 转 指令 。 对 ret 来 说 有 三 种 可 能 的 情 





况 指令 可 以 处 在 译 码 、 执 行 或 访 存 阶段 。 当 ret 指令 通过 流水 线 时 ， 前 面 的 流水 线 阶 
段 都 是 气泡 。 
加 载 /使 用 预测 错误 ret 1 ret 2 ret 3 

M Ml ] ml | wi 

E 项 帮 六 | Ee EE| | SEE SI| 攻 气泡 于 

D| 使 用 | DLL | D| ret |D| 气泡 |D| 气泡 | 

组 合 A 
组 合 B 


图 4-67 特殊 控制 条 件 的 流水 线 状态 。 图 中 标明 的 两 对 情况 可 能 同时 出 现 


从 这 些 图 中 我 们 可 以 看 出 ， 大 多 数控 制 条 件 是 互 扩 的。 例如， 不 可 能 同时 既 有 加 载 / 
使 用 冒险 又 有 预测 错误 的 分 支 ， 因 为 加 载 /使 用 冒险 要 求 执行 阶段 中 是 加 载 指令 (mrmovq 
或 popq) ， 而 预测 错误 的 分 支 要 求 执行 阶段 中 是 一 条 跳 转 指令 。 类 似 地 ， 第 二 个 和 第 三 个 
ret 组 合 也 不 可 能 与 加 载 / 使 用 冒险 或 预测 错误 的 分 支 同 时 出 现 。 只 有 用 箭头 标明 的 两 种 
组 合 可 能 同时 出 现 。 

组 合 A 中 执行 阶段 中 有 一 条 不 选择 分 支 的 跳 转 指令 ， 而 译 码 阶段 中 有 一 条 ret 指令 。 
出 现 这 种 组 合 要 求 ret 位 于 不 选择 分 支 的 目标 处 。 流 水 线 控制 逻辑 应 该 发 现 分 支 预测 错 
误 ， 因 此 要 取消 ret 指令 。 
练习 题 4.37 写 一 个 Y86-64 汇编 语言 程序 ， 它 能 导致 出 现 组 合 A 的 情况 ， 并 判断 控 
制 迎 辑 是 否 处 理 正确 。 
合并 组 合 A 条 件 的 控制 动作 (图 4-66)， 我 们 得 到 以 下 流水 线 控制 动作 (假设 气泡 或 暂 
停 会 覆盖 正常 的 情况 ): 
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en 流水 线 寄存 器 
| F D E M Ww 
处 理 ret 暂停 气泡 正常 正常 正常 
预测 错误 的 分 支 正常 气泡 气泡 正常 正常 
组 合 暂停 气泡 气泡 正常 正常 





也 就 是 说 ， 组 合 情 况 A 的 处 理 与 预测 错误 的 分 支 相似 ， 只 不 过 在 取 指 阶段 是 暂停 。 幸 
运 的 是 ， 在 下 一 个 周期 ，PC 选择 逻辑 会 选择 跳 转 后 面 那 条 指令 的 地 址 ， 而 不 是 预测 的 程 
序 计数 器 值 ， 所 以 流水 线 寄存 器 下 发 生 了 什么 是 没有 关系 的 。 因 此 我 们 得 出 结论 ， 流 水 线 
”能 正确 处 理 这 种 组 合 情 况 。 

组 合 BB 包括 一 个 加 载 /使 用 冒险 ， 其 中 加 载 指 令 设置 寄存 器 $rsp， 然 后 ret 指令 用 这 
个 寄存 器 作为 源 操作 数 ， 因 为 它 必 须 从 栈 中 弹出 返回 地 址 。 流 水 线 控制 逻辑 应 该 将 ret 指 


， 令 阻塞 在 译 码 阶段 。 


记 练习 题 4. 38 写 一 个 Y86-64 汇编 语言 程序 ， 它 能 导致 出 现 组 合 B 的 情况 ， 如 果 流 水 
线 运 行 正确 ， 以 halt 指令 结束 。 
合并 组 合 B 条 件 的 控制 动作 (图 4-66)， 我 们 得 到 以 下 流水 线 控制 动作 





流水 线 寄存 器 
条 件 | Re 
下 D E M WwW 
处 理 ret 暂停 气泡 正常 正常 正常 
预测 错误 的 分 支 暂停 暂停 气泡 正常 正常 
组 合 暂停 气泡 十 暂停 气泡 正常 正常 
期 望 的 情况 暂停 暂停 气泡 正常 正常 








如 果 同 时 触发 两 组 动作 ， 控 制 逻辑 会 试图 暂停 ret 指令 来 避免 加 载 /使 用 冒险 ， 同 时 
又 会 因为 ret 指令 而 往 译 码 阶段 中 插入 一 个 气泡 。 显 然 ， 我 们 不 希望 流水 线 同时 执行 这 两 
组 动作 。 相 反 ， 我 们 希望 它 只 采取 针对 加 载 /使 用 冒险 的 动作 。 处 理 ret 指令 的 动作 应 该 
推迟 一 个 周期 。 

这 些 分 析 表 明 组 合 B 需要 特殊 处 理 。 实 际 上 ，PIPE 控制 逻辑 原来 的 实现 并 没有 正确 


。 处 理 这 种 组 合 情 况 。 即 使 设计 已 经 通过 了 许多 模拟 测试 ， 它 还 是 有 细节 问题 ， 只 有 通过 刚 


“ 才 那 样 的 分 析 才 能 发 现 。 当 执行 一 个 含有 组 合 B 的 程序 时 ， 控 制 逻辑 会 将 流水 线 寄 存 器 D 
的 气泡 和 暂停 信号 都 置 为 1。 这 个 例子 表明 了 系统 分 析 的 重要 性 。 只 运行 正常 的 程序 是 很 
难 发 现 这 个 问题 的 。 如 果 没 有 发 现 这 个 问题 ， 流 水 线 就 不 能 忠实 地 实现 ISA 的 行为 。 
5. 控制 逻辑 实现 
图 4-68 是 流水 线 控制 逻辑 的 整体 结构 。 根 据 来 自流 水 线 寄 存 器 和 流水 线 阶段 的 信号 ， 控 制 
逻辑 产生 流水 线 寄存 器 的 暂停 和 气泡 控制 信和 号， 同时 也 决定 是 否 要 更 新 条 件 码 寄存 器 。 我 们 可 
。 以 将 图 464 的 发 现 条 件 和 图 4-66 的 动作 结合 起 来 ， 产 生 各 个 流水 线 控制 信号 的 HCL 描述 。 
遇 到 加 载 / 使 用 冒险 或 ret 指令 ， 流水线 寄存 器 下 必须 暂停 : 
bool F_stall = 
# Conditions for a load/use hazard 
E_icode in { IMRMOVQ, IPOPQ } && 
E_dstM in { d_srcA, d_srcB } | 


# Stalling at fetch while ret passes through pipeline 
IRET in { D_icode, E_icode, M_ icode }; 
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图 4-68 PIPE 流水 线 控制 逻辑 。 这 个 逻辑 覆盖 了 通过 流水 线 的 正常 指令 流 ， 以 处 理 特殊 条 件 ， 
ee ht 


SN 练习 题 4.39 写 出 PIPE 实现 中 信号 D_ stall 的 HCL 代码 。 
遇 到 预测 错误 的 分 支 或 ret 指令 ， 流 水 线 寄存 器 D 必须 设置 为 气泡 。 不 过 ， 正 如 前 
面 一 节 中 的 分 析 所 示 ， 当 遇 到 加 载 /使 用 冒险 和 ret 指令 组 合 时 ， 不 应 该 插入 气泡 : 
bool D_bubble = 
# Mispredicted branch 
(E_icode == IJXX && !e_Cnd) || 
# Stalling at fetch while ret passes through pipeline 
# but not condition for a load/use hazard 
1(E_icode in { IMRMOVQ, IPOPQ } && E_dstM in { d_srcA, d_srcB }) && 
IRET in { D_icode, E_icode, M_icode }; 
SN 练习 题 4.40 写 出 PIPE 实现 中 信和 号 EE bubble 的 HCL 代码 。 
SN 练习 题 4.41 写 出 PIPE 实现 中 信号 set_cc 的 HCL 代码 。 该 信号 只 有 对 OPq 指令 
才 出 现 ， 应 该 考虑 程序 异常 的 影响 。 
SN 练习 题 4.42 写 出 PIPE 实现 中 信号 M bubble 和 WW stall 的 HCL 代码。 后 一 个 信 
号 需要 修改 图 4-64 中 列 出 的 异常 条 件 。 
现在 我 们 讲 完了 所 有 的 特殊 流水 线 控制 信号 的 值 。 在 PIPE 的 完整 HCL 代码 中 , 所 
有 其 他 的 流水 线 控制 信号 都 设 为 0。 


国 沼 测试 设计 

正如 我 们 看 到 的 ， 即 使 是 对 于 一 个 很 简单 的 微 处 理 器 ， 设 计 中 还 是 有 很 多 地 方 会 出 
现 问题 。 使 用 流水 线 ， 处 于 不 同 流水 线 阶段 的 指令 之 间 有 许多 不 易 察觉 的 交互 。 我 们 看 
到 一 些 设计 上 的 挑战 来 自 于 不 常见 的 指令 (例如 弹出 值 到 栈 指针 )， 或 是 不 常见 的 指令 组 
合 (例如 不 选择 分 支 的 跳 转 指令 后 面 跟 一 条 ret 指令 ) 。 还 看 到 异常 处 理 增加 了 一 类 全 新 
的 可 能 的 流水 线 行为 。 那 么 怎样 确定 我 们 的 设计 是 正确 的 呢 ? 对 于 硬件 制造 者 来 说 ,这 














是 主要 关心 的 问题 ， 因 为 他 们 不 能 简单 地 报告 一 个 错误 ， 让 用 户 通过 Internet 下 载 代码 
补丁 。 即 使 是 简单 的 逻辑 设计 错误 都 可 能 有 很 严重 的 后 果 ， 特 别 是 随 着 微 处 理 器 越 来 越 
多 地 用 于 对 我 们 的 生命 和 健康 至 关 重 要 的 系统 的 运行 中 ， 例 如 汽车 防 抱 死 制 动 系统 、 心 
脏 起 搏 器 以 及 航空 控制 系统 。 

简单 地 模拟 设计 ， 运 行 一 些 “ 典 型 的 ”程序 ， 不 足以 用 来 测试 一 个 系统 。 相 反 ， 全 
面 的 测试 需要 设计 一 些 方法 ， 系 统 地 产生 许多 测试 尽 可 能 多 地 使 用 不 同 指令 和 指令 组 
合 。 在 创建 Y86-64 处 理 器 的 过 程 中 ， 我 们 还 设计 了 很 多 测试 脚本 ， 每 个 脚本 都 产生 出 
很 多 不 同 的 测试 ， 运 行 处 理 器 模拟 ， 并 且 比 较 得 到 的 寄存 器 和 内 存 值 和 我 们 YIS 指令 集 
模拟 器 产生 的 值 。 以 下 是 这 些 脚 本 的 简要 介绍 : 

optest: 运行 49 个 不 同 的 Y86-64 指令 测试 ， 具 有 不 同 的 源 和 目的 寄存 器 。 

jtest: 运行 64 个 不 同 的 跳 转 和 函数 调用 指令 的 测试 ， 具 有 不 同 的 是 否 选择 分 支 的 组 合 。 

cmtest: 运行 28 个 不 同 的 条 件 传 送 指令 的 测试 ， 具 有 不 同 的 控制 组 合 。 

htest; 运行 600 个 不 同 的 数据 冒险 可 能 性 的 测试 ， 具 有 不 同 的 源 和 目的 的 指令 的 组 
合 ， 在 这 些 指令 对 之 间 有 不 同 数 量 的 nop 指令 。 

ctest : 测试 22 个 不 同 的 控制 组 合 ， 基 于 类 似 4.5.8 节 中 我 们 做 的 那样 的 分 析 。 

etest: 测试 12 种 不 同 的 导致 异常 的 指令 和 跟 在 后 面 可 能 改变 程序 员 可 见 状态 的 指令 组 合 。 

这 种 测试 方法 的 关键 思想 是 我 们 想 要 尽量 的 系统 化 ， 生 成 的 测试 会 创建 出 不 同 的 可 
能 导致 流水 线 错误 的 条 件 。 


旁 注 | 形式 化 地 验证 我 们 的 设计 

即使 一 个 设计 通过 了 广泛 的 测试 ， 我 们 也 不 能 保证 对 于 所 有 可 能 的 程序 ， 它 都 能 正 
确 运行 。 即 使 只 考虑 由 短 的 代码 段 组 成 的 测试 ， 可 以 测试 的 可 能 的 程序 的 数量 也 大 得 难 
以 想象 。 不 过 ， 形 式 化 验证 (formal verification) 的 新 方法 能 够 保证 有 工具 能 够 严格 地 考 
处 一 个 系统 所 有 可 能 的 行为 ， 并 确定 是 否 有 设计 错误 。 

我 们 能 够 形式 化 验证 了 86-64 处 理 器 较 早 的 一 个 版 本 [13]。 建 立 一 个 框架 ， 比 较 流 
水 线 化 的 设计 PIPE 和 非 流水 线 化 的 版 本 SEQ。 也 就 是 ， 它 能 够 证 明 对 于 任意 Y86-64 
程序 ， 两 个 处 理 器 对 程序 员 可 见 的 状态 有 完全 一 样 的 影响 。 当 然 ， 我 们 的 验证 器 不 可 能 
真 的 运行 所 有 可 能 的 程序 ， 因 为 这 样 的 程序 的 数量 是 无 穷 大 的 。 相 反 ， 它 使 用 了 归纳 法 
来 证 明 ， 表 明 两 个 处 理 器 之 间 在 一 个 周期 到 一 个 周期 的 基础 上 都 是 一 致 的 。 进 行 这 种 分 
析 要 求 用 符号 方法 (Symbolic methods) 来 推导 硬件 ， 在 符号 方法 中 ， 我 们 认为 所 有 的 程 
序 值 都 是 任意 的 整数 ， 将 ALU 抽象 成 某 种 “ 黑 盒 子 ”， 根 据 它 的 参数 计算 某 个 未 指定 的 
函数 。 我 们 只 假设 SEQ 和 PIPE 的 ALU 计算 相同 的 函数 。 

用 控制 还 辑 的 HCL 描述 来 产生 符号 处 理 器 模型 的 控制 逻辑 ， 因 此 我 们 能 发 现 HCL 
代码 中 的 问题 。 能 够 证 明 SEQ 和 PIPE 是 完全 相同 的 ， 也 不 能 保证 它们 忠实 地 实现 了 
Y86-64 指令 集体 系 结 构 。 不 过 ， 它 能 够 发 现任 何 由 于 不 正确 的 流水 线 设计 导致 的 错误 ， 
这 是 设计 错误 的 主要 来 源 。 

在 实验 中 ， 我 们 不 仅 验 证 了 在 本 章 中 考虑 的 PIPE 版 本 ， 还 验证 了 作为 家 庭 作 业 的 
几 个 变种 ， 其 中 ， 我 们 增加 了 更 多 的 指令 ， 修 改 了 硬件 的 能 力 ， 或 是 使 用 了 不 同 的 分 支 
预测 策略 。 有 趣 的 是 ， 在 所 有 的 设计 中 ， 只 发 现 了 一 个 错误 ， 涉 及 家 庭 作 业 4. 58 中 描 
述 的 变种 的 答案 中 的 控制 组 合 B( 在 4.5.8 节 中 讲述 的 )。 这 暴露 出 测试 体制 中 的 一 个 弱点 ， 





导致 我 们 在 ctest 测试 脚本 中 增加 了 附加 的 情况 。 

形式 化 验证 仍然 处 在 发 展 的 早期 阶段 。 工 具 往 往 很 难 使 用 ， 而且 还 不 能 验证 大 规模 
的 设计 。 我 们 能 够 验证 Y86-64 处 理 器 的 部 分 原因 就 是 因为 它们 相对 比较 简单 。 即 使 如 
此 ， 也 需要 几 周 的 时 间 和 精力 ， 多 次 运行 那些 工具 ， 每 次 最 多 需要 8 个 小 时 的 计算 机 时 
间 。 这 是 一 个 活路 的 研究 领域 ， 有 些 工具 成 为 可 用 的 商业 版 本 ， 有 些 在 Intel、AMD 和 
IBM 这 样 的 公司 使 用 。 


和 (es Bele 和 流水线 化 的 Y86-64 处 理 器 的 Verilog 实现 

正如 我 们 提 到 过 的 ， 现 代 的 逻辑 设计 包括 用 硬件 描述 语言 书写 硬件 设计 的 文本 表 
示 。 然 后 ， 可 以 通过 模拟 和 各 种 形式 化 验证 工具 来 测试 设计 。 一 旦 对 设计 有 了 信心 ， 我 
们 就 可 以 使 用 逻辑 合成 (logic synthesis) 工 具 将 设计 翻译 成 实际 的 带 辑 电路 。 

我 们 用 Verilog 硬件 描述 语言 开发 了 Y86-64 处 理 器 设计 的 模型 。 这 些 设计 将 实现 处 
理 器 基本 构造 块 的 模块 和 直接 从 HCL 描述 产生 出 来 的 控制 逻辑 结合 了 起 来 。 我 们 能 够 
合成 这 些 设计 的 一 些 ， 将 逻辑 电路 描述 下 载 到 字段 可 编程 的 门 阵列 (FPGA) 硬 件 上 ， 可 
以 在 这 些 处 理 器 上 运行 实际 的 Y86-64 程序 。 





4. 5.9 性 能 分 析 


我 们 可 以 看 到 ， 所 有 需要 流水 线 控制 逻辑 进行 特殊 处 理 的 条 件 ， 都 会 导致 流水 线 不 能 
够 实现 每 个 时 钟 周期 发 射 一 条 新 指令 的 目标 。 我 们 可 以 通过 确定 往 流 水 线 中 插入 气泡 的 频 
率 ， 来 衡量 这 种 效率 的 损失 ， 因 为 插入 气泡 会 导致 未 使 用 的 流水 线 周 期 。 一 条 返回 指令 会 
产生 三 个 气泡 ， 一 个 加 载 /使 用 冒险 会 产生 一 个 ， 而 一 个 预测 错误 的 分 支 会 产生 两 个 。 我 
们 可 以 通过 计算 PIPE 执行 一 条 指令 所 需要 的 平均 时 钟 周期 数 的 估计 值 ， 来 量化 这 些 处 罚 
对 整体 性 能 的 影响 ， 这 种 衡量 方法 称 为 CPI(Cycles Per Instruction， 每 指令 周期 数 )。 这 
种 衡量 值 是 流水 线 平均 吞吐 量 的 倒数 ， 不 过 时 间 单 位 是 时 钟 周期 ， 而 不 是 微微 秒 。 这 是 一 
个 设计 体系 结构 效率 的 很 有 用 的 衡量 标准 。 

如 果 我 们 忽略 异常 带 来 的 性 能 损失 (异常 的 定义 表明 它 是 很 少 出 现 的 )， 另 一 种 思考 CPI 
的 方法 是 ， 假 设 我 们 在 处 理 器 上 运行 某 个 基准 程序 ， 并 观察 执行 阶段 的 运行 。 每 个 周期 ， 执 
行 阶 段 要 么 会 处 理 一 条 指令 ， 然 后 这 条 指令 继续 通过 剩 下 的 阶段 ， 直 到 完成 :要么 会 处 理 一 
个 由 于 三 种 特殊 情况 之 一 而 插入 的 气泡 。 如 果 这 个 阶段 一 共处 理 了 Ci 条 指令 和 C 个 气泡 , 那 
么 处 理 器 总 共和 需要 大 约 C; 十 Gs 个 时 钟 周期 来 执行 C; 条 指令 。 我 们 说 “大 约 ” 是 因为 忽略 了 启 
动 指令 通过 流水 线 的 周期 。 于 是 ， 可 以 用 如 下 方法 来 计算 这 个 基准 程序 的 CPI， 


_C+C C 
C; 


一 0 
GPI 1: oe; 


也 就 是 说 ，CPI 等 于 1.0 加 上 一 个 处 罚 项 C;/C;， 这 个 项 表明 执行 一 条 指令 平均 要 插 
人 多 少 个 气泡 。 因 为 只 有 三 种 指令 类 型 会 导致 插入 气泡 ， 我 们 可 以 将 这 个 处 罚 项 分 解 成 三 
个 部 分 : 
CPI = 1.0+ 人 +mp+i+rp 
这 里 ，lp(load penalty， 加 载 处 罚 ) 是 当 由 于 加 载 /使 用 冒险 造成 暂停 时 插入 气泡 的 平 
均 数 ，mpl(mispredicted branch penalty， 预 测 错误 分 支 处 罚 ) 是 当 由 于 预测 错误 取消 指令 
时 插入 气泡 的 平均 数 ， 而 rp(return penalty， 返 回 处 罚 ) 是 当 由 于 ret 指令 造成 暂停 时 插 





人 气泡 的 平均 数 。 每 种 处 罚 都 是 由 该 种 原因 引起 的 插入 气泡 的 总 数 (C 的 一 部 分 ) 除 以 执行 
指令 的 总 数 (C;)。 

为 了 估计 每 种 处 罚 ， 我 们 需要 知道 相关 指令 (加 载 、 条 件 转移 和 返回 ) 的 出 现 频率 ， 以 
及 对 每 种 指令 特殊 情况 出 现 的 频率 。 对 CPI 的 计算 ， 我 们 使 用 下 面 这 组 频率 (等 同 于 [44] 


和 [46] 中 报告 的 测量 值 ) ， 
e 加 载 指令 (mrmovq 和 popq) 占 所 有 执行 指令 的 25%。 其 中 20%% 会 导致 加 载 /使 用 
冒险 。 


e 条 件 分 支 指令 占 所 有 执行 指令 的 20%。 其 中 60% 会 选择 分 支 ， 而 40% 不 选择 分 支 。 

e 返回 指令 占 所 有 执行 指令 的 2%。 

因此 ， 我 们 可 以 估计 每 种 处 罚 ， 它 是 指令 类 型 频率 、 条 件 出 现 频率 和 当 条 件 出 现时 插 
人 气泡 数 的 乘积 : 


= 
原因 | 名 称 


加 载 /使 用 lp 
预测 错误 





















三 种 处 罚 的 总 和 是 0. 27， 所 以 得 到 CPI 为 1. 27。 
我 们 的 目标 是 设计 一 个 每 个 周期 发 射 一 条 指令 的 流水 线 ， 也 就 是 CPI 为 1.0。 虽 然 没 
有 完全 达到 目标 ,但 是 整体 性 能 已 经 很 不 错 了 。 我 们 还 能 看 到 ， 要 想 进 一 步 降低 CPI， 就 
应 该 集中 注意 力 预测 错误 的 分 支 。 它 们 占 到 了 整个 处 罚 0. 27 中 的 0. 16 ， 因 为 条 件 转移 非 
常常 见 ， 我 们 的 预测 策略 又 经 常 出 错 ， 而 每 次 预测 错误 都 要 取消 两 条 指令 。 
放生 练习 题 4. 43 ”假设 我 们 使 用 了 一 种 成 功率 可 以 达到 65% 的 分 支 预 测 策 略 ， 例 如 后 向 
分 支 选择 、 前 向 分 支 就 不 选择 (BTFNT)， 如 4.5.4 节 中 描述 的 那样 。 那 么 对 CPI 有 
什么 样 的 影响 呢 ? 假设 其 他 所 有 频率 都 不 变 。 
E 练习 题 4. 44 让 我 们 来 分 析 你 为 练习 题 4.4 和 练习 题 4.5 写 的 程序 中 使 用 条 件数 据 传 
送 和 条 件 控制 转移 的 相对 性 能 。 假 设 用 这 些 程序 计算 一 个 非常 长 的 数组 的 绝对 值 的 
和 ， 所 以 整体 性 能 主要 是 由 内 循环 所 需要 的 周期 数 决定 的 。 假 设 跳 转 指令 预测 为 选择 
分 支 ， 而 大 约 50% 的 数组 值 为 正 。 
A. 平均 来 说 ， 这 两 个 程序 的 内 循环 中 执行 了 多 少 条 指令 ? 
”B. 平均 来 说 ， 这 两 个 程序 的 内 循环 中 插入 了 多 少 个 气泡 ? 
C, 对 这 两 个 程序 来 说 ， 每 个 数组 元 素平 均 需要 多 少 个 时 钟 周期 ? 


4.5. 10 未 完成 的 工作 


我 们 已 经 创建 了 PIPE 流水 线 化 的 微 处 理 器 结构 ， 设 计 了 控制 逻辑 块 ， 并 实现 了 处 理 普 
通 流水 线 流 不 足以 处 理 的 特殊 情况 的 流水 线 控制 逻辑 。 不 过 ，PIPE 还 是 缺乏 一 些 实际 微 处 
理 器 设计 中 所 必需 的 关键 特性 。 我 们 会 强调 其 中 一 些 ， 并 讨论 要 增加 这 些 特性 需要 些 什 么 。 

1. 多 周期 指令 

Y86-64 指令 集中 的 所 有 指令 都 包括 一 些 简单 的 操作 ， 例 如 数字 加 法 。 这 些 操作 可 以 
在 执行 阶段 中 一 个 周期 内 处 理 完 。 在 一 个 更 完整 的 指令 集中 ， 我 们 还 将 实现 一 些 需要 更 为 
复杂 操作 的 指令 ， 例 如 ， 整 数 乘法 和 除法 ， 以 及 浮 点 运算 。 在 一 个 像 PIPE 这 样 性 能 中 等 
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的 处 理 器 中 ， 这 些 操作 的 典型 执行 时 间 从 浮 点 加 法 的 3 或 4 个 周期 到 整数 除法 的 64 个 周 
期 。 为 了 实现 这 些 指令 ， 我 们 既 需 要 额外 的 硬件 来 执行 这 些 计 算 ， 还 需要 一 种 机 制 来 协调 
这 些 指令 的 处 理 与 流水 线 其 他 部 分 之 间 的 关系 。 

实现 多 周期 指令 的 一 种 简单 方法 就 是 简单 地 扩展 执行 阶段 逻辑 的 功能 ， 添 加 一 些 整数 
和 浮 点 算术 运算 单元 。 一 条 指令 在 执行 阶段 中 逗留 它 所 需要 的 多 个 时 钟 周期 ,会 导致 取 指 
和 译 码 阶段 暂停 。 这 种 方法 实现 起 来 很 简单 ， 但 是 得 到 的 性 能 并 不 是 太 好 。 

通过 采用 独立 于 主流 水 线 的 特殊 硬件 功能 单元 来 处 理 较为 复杂 的 操作 ， 可 以 得 到 更 好 
的 性 能 。 通 常 ， 有 一 个 功能 单元 来 执行 整数 乘法 和 除法 ， 还 有 一 个 来 执行 浮 点 操作 。 当 一 
条 指令 进入 译 码 阶 段 时 ， 它 可 以 被 发 射 到 特殊 单元 。 在 这 个 特殊 单元 执行 该 操作 时 ， 流 水 
线 会 继续 处 理 其 他 指令 。 通 常 ， 浮 点 单元 本 身 也 是 流水 线 化 的 ， 因 此 多 条 指令 可 以 在 主流 
水 线 和 各 个 单元 中 并 发 执行 。 

不 同 单元 的 操作 必须 同步 ， 以 避免 出 错 。 比 如 说 ， 如 果 在 不 同 单元 执行 的 各 个 指令 之 
间 有 数据 相关 ， 控 制 逻辑 可 能 需要 暂停 系统 的 某 个 部 分 ， 直 到 由 系统 其 他 某 个 部 分 处 理 的 
操作 的 结果 完成 。 经 常 使 用 各 种 形式 的 转发 ， 将 结果 从 系统 的 一 个 部 分 传递 到 其 他 部 分 ， 
这 和 前 面 PIPE 各 个 阶段 之 间 的 转发 一 样 。 虽 然 与 PIPE 相 比 ， 整 个 设计 变 得 更 为 复杂 ， 
但 还 是 可 以 使 用 暂停 、 转 发 以 及 流水 线 控制 等 同样 的 技术 来 使 整体 行为 与 顺序 的 ISA 模型 
相 匹 配 。 

2. 与 存储 系统 的 接口 

在 对 PIPE 的 描述 中 ， 我们 假设 取 指 单元 和 数据 内 存 都 可 以 在 一 个 时 钟 周 期 内 读 或 是 
写 内 存 中 任意 的 位 置 。 我 们 还 忽略 了 由 自我 修改 代码 造成 的 可 能 冒险 ， 在 自我 修改 代码 
中 ， 一 条 指令 对 一 个 存储 区 域 进 行 写 ， 而 后 面 又 从 这 个 区 域 中 读 取 指令 。 进 一 步 说 ， 我 们 
是 以 存储 器 位 置 的 虚拟 地 址 来 引用 它们 的 ， 这 要 求 在 执行 实际 的 读 或 写 操作 之 前 ， 要 将 虚 
拟 地 址 翻译 成 物理 地 址 。 显 然 ， 要 在 一 个 时 钟 周 期 内 完成 所 有 这 些 处 理 是 不 现实 的 。 更 糟 
糕 的 是 ， 要 访问 的 存储 器 的 值 可 能 位 于 磁盘 上 ， 这 会 需要 上 百 万 个 时 钟 周期 才能 把 数据 读 
和 到 处 理 器 内 存 中 。 

正如 将 在 第 6 章 和 第 9 章 中 讲述 的 那样 ， 处 理 器 的 存储 系统 是 由 多 种 硬件 存储 器 和 管 
理 虚拟 内 存 的 操作 系统 软件 共同 组 成 的 。 存 储 系统 被 组 织 成 一 个 层次 结构 ， 较 快 但 是 较 小 
的 存储 器 保持 着 存储 器 的 一 个 子 集 ， 而 较 慢 但 是 较 大 的 存储 器 作为 它 的 后 备 。 最 靠近 处 理 
器 的 一 层 是 高 速 缓存 (cache) 存 储 器 ， 它 提供 对 最 常 使 用 的 存储 器 位 置 的 快速 访问 。 一 个 
典型 的 处 理 器 有 两 个 第 一 层 高 速 缓存 个 用 于 读 指 令 ， 一 个 用 于 读 和 写 数 据 。 另 一 种 
类 型 的 高 速 缓存 存储 器 ， 称 为 翻译 后 备 缓冲 器 (Translation Look-aside Buffer，TLB)， 它 
提供 了 从 虚拟 地 址 到 物理 地 址 的 快速 翻译 。 将 TLB 和 高 速 缓存 结合 起 来 使 用 ， 在 大 多 数 
时 候 ， 确 实 可 能 在 一 个 时 钟 周期 内 读 指令 并 读 或 是 写 数据 。 因 此 ， 我 们 的 处 理 器 对 访问 存 
储 器 的 简化 看 法 实际 上 是 很 合理 的 。 

虽然 高 速 缓存 中 保存 有 最 常 引 用 的 存储 器 位 置 ， 但 是 有 时 候 还 会 出 现 高 速 缓存 不 命中 
(miss)， 也 就 是 有 些 引 用 的 位 置 不 在 高 速 缓存 中 。 在 最 好 的 情况 中 ， 可 以 从 较 高 层 的 高 速 
缓存 或 处 理 器 的 主 存 中 找到 不 命中 的 数据 ， 这 需要 3 一 20 个 时 钟 周期 。 同 时 ， 流 水 线 会 简 
单 地 暂停 ， 将 指令 保持 在 取 指 或 访 存 阶段 ， 直 到 高 速 缓存 能 够 执行 读 或 写 操作 。 至 于 流水 
线 设计 ， 通 过 添加 更 多 的 暂停 条 件 到 流水 线 控制 逻辑 ， 就 能 实现 这 个 功能 。 高 速 缓存 不 命 
中 以 及 随 之 而 来 的 与 流水 线 的 同步 都 完全 是 由 硬件 来 处 理 的 ， 这 样 能 使 所 需 的 时 间 尽 可 能 
地 缩短 到 很 少数 量 的 时 钟 周 期 。 
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在 有 些 情况 中 ， 被 引用 的 存储 器 位 置 实际 上 是 存储 在 磁盘 存储 器 上 的 。 此 时 ， 硬 件 会 
产生 一 个 缺 页 (page fault) 异 常 信号 。 同 其 他 异常 一 样 ， 这 个 异常 会 导致 处 理 器 调用 操作 系 
统 的 异常 处 理 程序 代码 。 然 后 这 段 代码 会 发 起 一 个 从 磁盘 到 主 存 的 传送 操作 。 一 旦 完成 ， 
操作 系统 会 返回 到 原来 的 程序 ， 而 导致 缺 页 的 指令 会 被 重新 执行 。 这 次 ， 存 储 器 引用 将 成 
功 , 虽然 可 能 会 导致 高 速 缓存 不 命中 。 让 硬件 调用 操作 系统 例 程 ， 然 后 操作 系统 例 程 又 会 
将 控制 返回 给 硬件 ， 这 就 使 得 硬件 和 系统 软件 在 处 理 缺 页 时 能 协同 工作 。 因 为 访问 磁盘 需 
要 数 百 万 个 时 钟 周 期 ，OS 缺 页 中 断 处 理 程序 执行 的 处 理 所 需 的 几 百 个 时 钟 周期 对 性 能 的 
影响 可 以 忽略 不 计 。 

从 处 理 器 的 角度 来 看 ， 将 用 和 暂停 来 处 理 短 时 间 的 高 速 缓存 不 命中 和 用 异常 处 理 来 处 理 长 时 
间 的 缺 页 结合 起 来 ， 能 够 顾及 到 存储 器 访问 时 由 于 存储 器 层次 结构 引起 的 所 有 不 可 预测 性 。 


力 末 当前 的 微 处 理 器 设计 

一 个 五 阶段 流水 线 ， 例 如 已 经 讲 过 的 PIPE 处 理 器 ， 代 表 了 20 世纪 80 年代 中 期 
的 处 理 器 设计 水 平 。Berkeley 的 Patterson 研究 组 开发 的 RISC 处 理 器 原型 是 第 一 个 
SPARC 处 理 器 的 基础 ， 它 是 Sun Microsystems 在 1987 年 开发 的 。Stanford 的 Hen- 
nessy 研究 组 开发 的 处 理 器 由 MIPS Technologies( 一 个 由 Hennessy 成立 的 公司 ) 在 1986 
年 商业 化 了 。 这 两 种 处 理 器 都 使 用 的 是 五 阶段 流水 线 。Intel 的 i486 处 理 器 用 的 也 是 
五 阶段 流水 线 ， 只 不 过 阶段 之 间 的 职责 划分 不 太一 样 ， 它 有 两 个 译 码 阶段 和 一 个 合并 
"的 执行 / 访 存 阶段 [27j]。 

这 些 流水 线 化 的 设计 的 吞吐 量 都 限制 在 最 多 一 个 时 钟 周期 一 条 指令 。4.5.9 小 节 中 
描述 的 CPI(Cycles Per Instruction， 每 指令 周期 ) 测 量 值 不 可 能 小 于 1.0。 不 同 的 阶段 一 
次 只 能 处 理 一 条 指令 。 较 新 的 处 理 器 支持 超标 量 (superscalar) 操 作 ， 意 味 着 它们 通过 并 
行 地 取 指 、 译 码 和 执行 多 条 指令 ， 可 以 实现 小 于 1.0 的 CPI。 当 超标 量 处 理 器 已 经 广泛 
使 用 时 ， 性 能 测量 标准 已 经 从 CPI 转化 成 了 它 的 倒数 一 一 每 周期 执行 指令 的 平均 数 ， 即 
JPC。 对 超标 量 处 理 器 来 说 ，IPC 可 以 大 于 1.0。 最 先进 的 设计 使 用 了 一 种 称 为 乱 序 
(out-of-order) 执 行 的 技术 来 并 行 地 执行 多 条 指令 ， 执 行 的 顺序 也 可 能 完全 不 同 于 它们 在 
程序 中 出 现 的 顺序 ， 但 是 保留 了 顺序 ISA 模型 蕴含 的 整体 行为 。 作 为 对 程序 优化 的 讨论 
的 一 部 分 ， 我 们 将 会 在 第 5 章 中 讨论 这 种 形式 的 执行 。 

不 过 ， 流 水 线 化 的 处 理 器 并 不 只 有 传统 的 用 途 。 现 在 出 售 的 大 部 分 处 理 器 都 用 在 嵌 
入 式 系 统 中 ， 控 制 着 汽车 运行 、 消 费 产 品 ， 以 及 其 他 一 些 系 统 用 户 不 能 直接 看 到 处 理 器 
的 设备 。 在 这 些 应 用 中 ， 与 性 能 较 高 的 模型 相 比 ， 流 水 线 化 的 处 理 器 的 简单 性 (比如 说 
像 我 们 在 本 章 中 讨论 的 这 样 ) 会 降低 成 本 和 功 耗 需求 。 

最 近 ， 随 着 多 核 处 理 器 受到 追捧 ， 有 些 人 声称 通过 在 一 个 芯片 上 集成 许多 简单 的 处 
理 器 ， 比 使 用 少量 更 复杂 的 处 理 器 能 获得 更 多 的 整体 计算 能 力 。 这 种 策略 有 时 被 称 为 
“多 核 ”处理 器 [10]。 





4.6 小 结 

我 们 已 经 看 到 ， 指 令 集体 系 结构 ， 即 ISA， 在 处 理 器 行为 (就 指令 集合 及 其 编码 而 言 ) 和 如 何 实现 处 
理 器 之 间 提 供 了 一 层 抽 象 。ISA 提供 了 程序 执行 的 一 种 顺序 说 明 ， 也 就 是 一 条 指令 执行 完了 ， 下 一 条 指 
令 才 会 开始 。 

从 IA32 指令 开始 ， 大 大 简化 数据 类 型 、 地 址 模式 和 指令 编码 ， 我 们 定义 了 Y86-64 指令 集 。 得 到 的 























ISA 既 有 RISC 指令 集 的 属性 ， 也 有 CISC 指令 集 的 属性 。 然 后 ， 将 不 同 指令 组 织 放 到 五 个 阶段 中 处 理 
在 此 ， 根 据 被 执行 的 指令 的 不 同 ， 每 个 阶段 中 的 操作 也 不 相同 。 据 此 ， 我 们 构造 了 SEQ 处 理 器 ， 其 中 每 
个 时 钟 周期 执行 一 条 指令 ， 它 会 通过 所 有 五 个 阶段 。 

流水 线 化 通过 让 不 同 的 阶段 并 行 操 作 ， 改 进 了 系统 的 吞吐 量 性 能 。 在 任意 一 个 给 定 的 时 刻 ， 多 条 指 
令 被 不 同 的 阶段 处 理 。 在 引入 这 种 并 行 性 的 过 程 中 ， 我 们 必须 非常 小 心 ， 以 提供 与 程序 的 顺序 执行 相同 
的 程序 级 行为 。 通 过 重新 调整 SEQ 各 个 部 分 的 顺序 ， 引 和 流水线 ， 我 们 得 到 SEQ 十 ， 接 着 添加 流水 线 寄 
存 器 ， 创 建 出 PIPE 一 流水 线 。 然 后 ， 添 加 了 转发 逻辑 ， 加 速 了 将 结果 从 一 条 指令 发 送 到 另 一 条 指令 ， 从 
we 

我 们 的 设计 中 包括 了 一 些 基 本 的 异常 处 理 机 制 ， 在 此 ， 保 证 只 有 到 异常 指令 之 前 的 指令 会 影响 程序 
员 可 见 的 状态 。 实 现 完整 的 异常 处 理 远 比 此 更 具 挑 战 性 。 在 染 用 了 更 洪流 水 线 利 更 多 并 行 性 的 系统 让， 
要 想 正确 处 理 蜡 常 就 更 加 复杂 了 。 

在 本 章 中 ， 我 们 学 习 了 有 关 处 理 器 设计 的 几 个 重要 经 验 ， 

@ 管理 复杂 性 是 首要 问题 。 想 要 优化 使 用 硬件 资源 ， 在 最 小 的 成 本 下 获得 最 大 的 性 能 。 为 了 实现 这 
个 目的 ， 我 们 创建 了 一 个 非常 简单 而 一 致 的 框架 ， 来 处 理 所 有 不 同 的 指令 类 型 。 有 了 这 个 框架 ， 
就 能 够 在 处 理 不 同 指令 类 型 的 逻辑 中 共享 硬件 单元 。 

我 们 不 需要 直接 实现 ISA。ISA 的 直接 实现 意味 着 一 个 顺序 的 设计 。 为 了 获得 更 高 的 性 能 ， 我 们 想 
运用 硬件 能 力 以 同时 执行 许多 操作 ， 这 就 导致 要 使 用 流水 线 化 的 设计 。 通 过 仔细 的 设计 和 分 析 ， 
我 们 能 够 处 理 各 种 流水 线 冒 险 ， 因 此 运行 一 个 程序 的 整体 效果 ， 同 用 ISA 模型 获得 的 效果 完全 
一 致 。 

硬件 设计 人 员 必 须 非常 谨慎 小 心 。 一 旦 芯片 被 制造 出 来 ， 就 几乎 不 可 能 改正 任何 错误 了 。 一 开始 就 
使 设计 正确 是 非常 重要 的 。 这 就 意味 着 要 仔细 地 分 析 各 种 指令 类 型 和 组 合 ， 其 至 于 那些 看 上 去 没有 
意义 的 情况 ,例如 弹出 值 到 栈 指针 。 必 须 用 系统 的 模拟 测试 程序 彻底 地 测试 设计 。 在 开发 PIPE 的 
控制 逻辑 中 ， 我 们 的 设计 有 个 细微 的 错误 ， 只 有 通过 对 控制 组 合 的 仔细 而 系统 的 分 析 才 能 发 现 。 


和 考 sitelaBial 人 i 吐 Y86-64 处 理 器 的 HCL 描述 

本 章 已 经 介绍 几 个 简单 的 逻辑 设计 ， 以 及 Y86-64 处 理 器 SEQ 和 了 PIPE 的 控制 逻辑 
的 部 分 HCL 代码 。 我 们 提供 了 HCL 语言 的 文档 和 这 两 个 处 理 器 的 控制 远 辑 的 完整 
HCL 档 述 。 这 些 描述 每 个 都 只 需要 5~7 页 HCL 代码 ， 完 整地 研究 它们 是 很 值得 的 。 ， 


Y86-64 模拟 器 


本 章 的 实验 资料 包括 SEQ 和 PIPE 处 理 器 的 模拟 器 。 每 个 模拟 器 都 有 两 个 版 本 : 
@ GUI 图 形 用 户 界面 ) 版 本 在 图 形 窗口 中 显示 内 存 、 程 序 代码 以 及 处 理 器 状态 。 它 提供 了 一 种 方式 
简便 地 查看 指令 如 何 通过 处 理 器 。 控 制 面板 还 允许 你 交互 式 地 重启 动 、 单 步 或 运行 模拟 器 。 
@ 文本 版 本 运行 的 是 相同 的 模拟 器 ， 但 是 它 显示 信息 的 唯一 方式 是 打印 到 终端 上 。 对 调试 来 讲 ， 这 
个 版 本 不 是 很 有 用 ,但 是 它 允 许 处 理 器 的 自动 测试 。 
这 些 模 拟 器 的 控制 逻辑 是 通过 将 逻辑 块 的 HCL 声明 翻译 成 C 代码 产生 的 。 然 后 ， 编 译 这 些 代码 并 
与 模拟 代码 的 其 他 部 分 进行 链接 。 这 样 的 结合 使 得 你 可 以 用 这 些 模拟 器 测试 原始 设计 的 各 种 变种 。 提 供 
的 测试 脚本 ， 它 们 全 面 地 测试 各 种 指令 以 及 各 种 冒险 的 可 能 性 。 


参考 文献 说 明 

对 于 那些 有 兴趣 更 多 地 学 习 逻 辑 设 计 的 人 来 说 ，Katz 的 逻辑 设计 教科 书 [58] 是 标准 的 入门 教材 ， 它 
强调 了 硬件 描述 语言 的 使 用 。Hennessy 和 Patterson 的 计算 机 体系 结构 教科 书 [46] 覆 盖 了 处 理 器 设计 的 
广泛 内 容 ， 包 括 这 里 讲述 的 简单 流水 线 ， 还 有 并 行 执行 更 多 指令 的 更 高 级 的 处 理 器 。Shriver 和 Smith 
[101] 详 细 介绍 了 AMD 制造 的 与 Intel 兼容 的 IA32 处 理 器 。 











家 庭 作业 
*4.45 在 3.4.2 节 中 ，x86-64 pushq 指 令 被 描述 成 要 减少 栈 指针 ， 然 后 将 寄存 器 存储 在 栈 指针 的 位 
置 。 因 此 ， 如 果 我 们 有 一 条 指令 形 如 对 于 某 个 寄存 器 REG，pushq REG， 它 等 价 于 下 面 的 代 
码 序列 : 
subq $8,%rsp Decrement stack pointer 
movq REG, (%rsp) Store REG on stack 


*4.46 


村 4.47 


*# 4. 48 


村 4.49 


4.50 


A. 借助 于 练习 题 4. 7 中 所 做 的 分 析 ， 这 段 代 码 序 列 正确 地 描述 了 指令 pushq szrsp 的 行为 吗 ? 请 
解释 。 

B. 你 该 如 何 改 写 这 段 代 码 序列 ， 使 得 它 能 够 像 对 REG 是 其 他 寄存 器 时 一 样 ， 正 确 地 描述 REG 
是 srsp 的 情况 ? 

在 3.4.2 节 中 ，x86-64 popq 指令 被 描述 为 将 来 自 栈 顶 的 结果 复制 到 目的 寄存 器 ， 然 后 将 栈 指针 减 

少 。 因 此 ， 如 果 我 们 有 一 条 指令 形 如 popq REG， 它 等 价 于 下 面 的 代码 序列 : 


movq (%rsp), REG Read REG from stack 
addq $8,%rsp Increment stack pointer 


A. 借助 于 练习 题 4.8 中 所 做 的 分 析 ， 这 段 代 码 序列 正确 地 描述 了 指令 popq srsp 的 行为 吗 ? 请 
解释 。 

B. 你 该 如 何 改写 这 段 代码 序列 ， 使 得 它 能 够 像 对 REG 是 其 他 寄存 器 时 一 样 ， 正 确 地 描述 REG 
是 $rsp 的 情况 ? 

你 的 作业 是 写 一 个 执行 冒 泡 排序 的 Y86-64 程序 。 下 面 这 个 C 函数 用 数组 引用 实现 冒 泡 排序 ， 供 你 

参考 ， 

1 /* Bubble sort: Array version */ 

2 void bubble_a(long *data, long count) { 

3 long i, last; 

4 for (last = count-1; last > 0; last--) { 

% for (i = 0; i < last; i++) 

6 if (data[i+1] < data[i]) { 

8 


/* Swap adjacent elements */ 
long t = data[i+1]; 


9 data[i+1] = data[i]; 
10 data[i] = 七 ; 

11 直 

12 } 

人 5 步 


A. 书写 并 测试 一 个 C 版 本 ， 它 用 指针 引用 数组 元 素 ， 而 不 是 用 数组 索引 。 
B. 书写 并 测试 一 个 由 这 个 函数 和 测试 代码 组 成 的 Y86-64 程序 。 你 会 发 现 模仿 编译 你 的 C 代码 产 
生 的 x86-64 代码 来 做 实现 会 很 有 帮助 。 昌 然 指 针 比 较 通 常 是 用 无 符号 算术 运算 来 实现 的 ， 但 
是 在 这 个 练习 中 ， 你 可 以 使 用 有 符号 算术 运算 。 
修改 对 家 庭 作 业 4. 47 所 写 的 代码 ， 实 现 冒 泡 排序 函数 的 测试 和 交换 (6 一 11 行 )， 要 求 不 使 用 跳 转 ， 
且 最 多 使 用 3 次 条 件 传 送 。 
修改 对 家 庭 作业 4. 47 所 写 的 代码 ， 实 现 冒 泡 排序 函数 的 测试 和 交换 (6 一 11 行 )， 要 求 不 使 用 跳 转 ， 
且 只 使 用 1 次 条 件 传送 。 
在 3. 6.8 节 中 ， 我 们 看 到 实现 switch 的 一 种 常见 方法 是 创建 一 组 代码 块 ， 再 用 跳 转 表 对 这 些 块 进 
行 索引 。 考 虑 图 4-69 中 给 出 的 函数 switchv 的 C 代码 ， 以 及 相应 的 测试 代码 。 
用 跳 转 表 以 Y86-64 实现 switchv。 哩 然 Y86-64 指令 集 不 包含 间接 跳 转 指令 ， 但 是 ， 你 可 以 
通过 把 计算 好 的 地 址 人 栈 ， 再 执行 ret 指令 来 获得 同样 的 效果 。 实 现 类 似 于 C 语言 所 示 的 测试 代 
码 ， 证 明 你 的 switchv 实现 可 以 处 理 触 发 default 的 情况 以 及 两 个 显 式 处 理 的 情况 。 





* 4.51 


*x* 4. 52 


kx 4. 53 





#include <stdio.h> 
/* Example use of switch statement */ 


long switchv(long idx) { 
long result = 0; 
switch(idx) { 
case 0: 
result = Oxaaa; 
break; 
case 2: 
case 5: 
result = Oxbbb; 
break; 
case 3: 
result = Oxccc; 
break; 
default: 
result = Oxddd; 


} 
return result; 


} 


/* Testing Code */ 
#define CNT 8 
#define MINVAL -1 


int main() { 
long vals[CNT]; 
long i; 
for (i = 0; i < CNT; i++) { 
vals[i] = switchv(i + MINVAL); 
printf("idx = %ld, val = Ox%lx\n", i + MINVAL, vals[i]); 
} 


return 0; 








[ 
图 4-69 switch 语句 可 以 翻译 成 Y86-64 代码 。 这 要 求实 现 一 个 跳 转 表 

练习 题 4. 3 介绍 了 iaddq 指令 ， 即 将 立即 数 与 寄存 器 相 加 。 描 述 实现 该 指令 所 执行 的 计算 。 参 考 
irmovq 和 OPq 指令 的 计算 (图 4-18) 。 

文件 seq-full. hcl 包含 SEQ 的 HCL 描述 ， 并 将 常数 IIADDQ 声明 为 十 六 进 制 值 C， 也 就 是 iad- 
dq 的 指令 代码 。 修 改 实现 iadgq 指令 的 控制 逻辑 块 的 HCL 描述 ， 就 像 练 习题 4. 3 和 家 庭 作 业 
4. 51 中 描述 的 那样 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 
指导 。 

假设 要 创建 一 个 较 低 成 本 的 、 基 于 我 们 为 PIPE 一 设计 的 结构 (图 4-41) 的 流水 线 化 的 处 理 器 ， 不 使 
用 旁 路 技术 。 这 个 设计 用 暂停 来 处 理 所 有 的 数据 相关 ， 直 到 产生 所 需 值 的 指令 已 经 通过 了 写 回 











-阶段 。 


文件 pipe-stall. hcl 包含 一 个 对 PIPE 的 HCL 代码 的 修改 版 ， 其 中 禁止 了 旁 路 逻辑 。 也 就 是 ， 
信号 e_valA 和 e_valB 只 是 简单 地 声明 如 下 : 


## DO NOT MODIFY THE FOLLOWING CODE. 
## No forwarding. valA is either valP or value from register file 
word d_valA = [ 
D_icode in { ICALL, IJXX } : D_valP; # Use incremented PC 
1 : drvalA; # Use value read from register file 


J 
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4. 54 
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由 4.56 


村 4 57 


## No forwarding. valB is Value from register file 
word d_valB = d_rvalB; 

修改 文件 结尾 处 的 流水 线 控制 逻辑 ， 使 之 能 正确 处 理 所 有 可 能 的 控制 和 数据 冒险 。 作 为 设计 
工作 的 一 部 分 ， 你 应 该 分 析 各 种 控制 情况 的 组 合 ， 就 像 我 们 在 PIPE 的 流水 线 控制 逻辑 设计 中 做 
的 那样 。 你 会 发 现 有 许多 不 同 的 组 合 ， 因 为 有 更 多 的 情况 需要 流水 线 暂 停 。 要 确保 你 的 控制 逻辑 
能 正确 处 理 每 种 组 合 情 况 。 可 以 参考 实验 资料 指导 你 如 何 为 解答 生成 模拟 器 以 及 如 何 测试 模拟 
器 的 。 
文件 pipe-full. hcl 包含 一 份 PIPE 的 HCL 描述 ， 以 及 常数 值 IIADDQ 的 声明 。 修 改 该 文件 以 实 
现 指令 iaddq， 就 像 练习 题 4. 3 和 家 庭 作业 4. 51 中 描述 的 那样 。 可 以 参考 实验 资料 获得 如 何 为 你 
的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 指导 。 
文件 pipe-nt. hcl 包含 一 份 PIPE 的 HCL 描述 ， 并 将 常数 J_YES 声明 为 值 0， 即 无 条 件 转移 指令 
的 功能 码 。 修 改 分 支 预 测 逻 辑 ， 使 之 对 条 件 转移 预测 为 不 选择 分 支 ， 而 对 无 条 件 转 移 和 call 预测 
为 选择 分 支 。 你 需要 设计 一 种 方法 来 得 到 跳 转 目标 地 址 valc， 并 送 到 流水 线 寄存 器 M， 以 便 从 错 
误 的 分 支 预测 中 恢复 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 
指导 。 
文件 pipe-btfnt. hcl 包含 一 份 PIPE 的 HCL 描述 ， 并 将 常数 J YES 声明 为 值 0， 即 无 条 件 转移 
指令 的 功能 码 。 修 改 分 支 预测 逻辑 ， 使 得 当 valc< valP 时 (后 向 分 支 )， 就 预测 条 件 转移 为 选择 
分 支 ， 当 valc 之 valP 时 (前 向 分 支 )， 就 预测 为 不 选择 分 支 。( 由 于 Y86-64 不 支持 无 符号 运算 ， 你 
应 该 使 用 有 符号 比较 来 实现 这 个 测试 。) 并 且 将 无 条 件 转移 和 call 预测 为 选择 分 支 。 你 需要 设计 一 
种 方法 来 得 到 valc 和 valP， 并 送 到 流水 线 寄存 器 M， 以 便 从 错误 的 分 支 预测 中 恢复 。 可 以 参考 
实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 指导 。 
在 我 们 的 PIPE 的 设计 中 ， 只 要 一 条 指令 执行 了 load 操作 ， 从 内 存 中 读 一 个 值 到 寄存 器 ， 并 且 下 
一 条 指令 要 用 这 个 寄存 器 作为 源 操作 数 ， 就 会 产生 一 个 暂停 。 如 果 要 在 执行 阶段 中 使 用 这 个 源 操 
作 数 ， 暂 停 是 避免 冒险 的 唯一 方法 。 对 于 第 二 条 指令 将 源 操 作 数 存 储 到 内 存 的 情况 ， 例 如 rmmovq 
或 pushq 指令 ， 是 不 需要 这 样 的 暂停 的 。 考 虑 下 面 这 段 代 码 示例 : 





mrmovdq O(Xrcx),%rdx # Load 1 


| 

2 pushq %rdx # Store 1 
3 nop 

4 popq %rdx # Load 2 
5 rmmovq %rax,O(%rdx) # Store 2 


在 第 1 行 和 第 2 行 ，mrmovq 指令 从 内 存 读 一 个 值 到 srdx， 然 后 pushq 指令 将 这 个 值 压 人 栈 

中 。 我 们 的 PIPE 设计 会 让 pushq 指令 暂停 ， 以 避免 装载 /使 用 冒险 。 不 过 ， 可 以 看 到 ，pusha 指 

令 要 到 访 存 阶段 才 会 需要 %rdx 的 值 。 我 们 可 以 再 添加 一 条 旁 路 通路 ， 如 图 4-70 所 示 ， 将 内 存 输出 

(信号 m_valM) 转 发 到 流水 线 寄存 器 M 中 的 valA 字段 。 在 下 一 个 时 钟 周 期 ， 被 传送 的 值 就 能 写 人 人 

内 存 了 。 这 种 技术 称 为 加 载 转发 (load forwarding)。 
注意， 上 述 代码 序列 中 的 第 二 个 例子 (第 4 行 和 第 5 行 ) 不 能 利用 加 载 转发 。popq 指令 加 载 的 

值 是 作为 下 一 条 指令 地 址 计算 的 一 部 分 的 ， 而 在 执行 阶段 而 非 访 存 阶 段 就 需要 这 个 值 了 。 

A. 写 出 描述 发 现 加 载 /使 用 冒险 条 件 的 逻辑 公式 ， 类 似 于 图 4-64 所 示 ， 除 了 能 用 加 载 转发 时 不 会 
导致 暂停 以 外 。 

B. 文件 pipe-1f. hcl 包含 一 个 PIPE 控制 逻辑 的 修改 版 。 它 含有 信号 e_vala 的 定义 ， 用 来 实 
现 图 4-70 中 标号 为 “Fwd A” 的 块 。 它 还 将 流水 线 控制 逻辑 中 的 加 载 /使 用 冒险 的 条 件 设 
置 为 0， 因 此 流水 线 控制 逻辑 将 不 会 发 现任 何 形式 的 加 载 /使 用 冒险 。 修 改 这 个 HCL 描述 
以 实现 加 载 转发 。 可 以 参考 实验 资料 获得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 
的 指导 。 

















W_stat 
m_stat 
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图 4-70 能够 进行 加 载 转发 的 执行 和 访 存 阶段 。 通 过 添加 一 条 从 内 存 输出 到 流水 线 寄存 器 M 中 vala 的 
源 的 旁 路 通路 ， 对 于 这 种 形式 的 加 载 / 使 用 冒险 ,我 们 可 以 使 用 转发 而 不 必 暂 停 。 这 是 家 庭 作 
业 4.57 的 主旨 


*# 4.58 我 们 的 流水 线 化 的 设计 有 点 不 太 现实 ， 因 为 寄存 器 文件 有 两 个 写 端口 ， 然 而 只 有 popq 指令 需要 对 
寄存 器 文件 同时 进行 两 个 写 操作 。 因 此 ， 其 他 指令 只 使 用 一 个 写 端 口 ， 共 享 这 个 端口 来 写 valE 和 
valM。 下 面 这 个 图 是 一 个 对 写 回 逻辑 的 修改 版 ， 其 中 ， 我 们 将 写 回 寄存 器 ID(W_gdstE 和 W_dstM) 
合并 成 一 个 信号 w_dstE， 同 时 也 将 写 回 值 (w_valE 和 由 valM) 合 并 成 一 个 信号 w_valE: 













| 
用 HCL 写 执行 这 些 合 并 的 逻辑 ， 如 下 所 示 ; 
## Set E port register ID 
word w_dstE = [ 
## writing from valM 


W_dstM != RNONE : W_dstM; 
1: W_dstE; 





有 


## Set E port value 

word w_valE = [ 
W_dstM != RNONE : W_valM; 
1: W_valE; 

| 
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对 这 些 多 路 复 用 器 的 控制 是 由 dstE 确定 的 一 一 当 它 表明 有 某 个 寄存 器 时 ， 就 选择 端口 下 的 
值 ， 否 则 就 选择 端口 M 的 值 。 
在 模拟 模型 中 ,我 们 可 以 禁止 寄存 器 端口 M， 如 下 面 这 段 HCL 代码 所 示 : 


## Disable register port M 
## Set M port register ID 
word w_dstM = RNONE; 


## Set M port value 
word w_valM = 0; 


接 下 来 的 问题 就 是 要 设计 处 理 popq 的 方法 。 一 种 方法 是 用 控制 逻辑 动态 地 处 理 指令 popq 
rA， 使 之 与 下 面 两 条 指令 序列 有 一 样 的 效果 : 
iaddq $8, %rsp 
mrmovq -8(%rsp), rA 
(关于 指令 iagddq 的 描述 ， 请 参考 练习 题 4. 3) 要 注意 两 条 指令 的 顺序 ， 以 保证 popq srsp 能 正确 
工作 。 要 达到 这 个 目的 ， 可 以 让 译 码 阶段 的 逻辑 对 上 面 列 出 的 popq 指令 和 adgq 指令 一 视 同仁 ， 
除了 它 会 预测 下 一 个 PC 与 当前 PC 相等 以 外 。 在 下 一 个 周期 ， 再 次 取出 了 popq 指令 ,但 是 指令 
代码 变 成 了 特殊 的 值 ITPOP2。 它 会 被 当 作 一 条 特殊 的 指令 来 处 理 ， 行 为 与 上 面 列 出 的 mrmovq 指令 
一 样 。 

文件 pipe-lw. hcl 包含 上 面 讲 的 修改 过 的 写 端口 逻辑 。 它 将 常数 IPOP2 声明 为 十 六 进 制 值 
E。 还 包括 信号 f_icode 的 定义 ， 它 产生 流水 线 寄存 器 D 的 icode 字段 。 可 以 修改 这 个 定义 ， 使 
得 当 第 二 次 取出 popq 指令 时 ,插入 指令 代码 IPOP2。 这 个 HCL 文件 还 包含 信号 f_pc 的 声明 ， 也 
就 是 标号 为 “Select PC” 的 块 (图 4-57) 在 取 指 阶段 产生 的 程序 计数 器 的 值 。 

修改 该 文件 中 的 控制 逻辑 ， 使 之 按照 我 们 描述 的 方式 来 处 理 popq 指令 。 可 以 参考 实验 资料 获 
得 如 何 为 你 的 解答 生成 模拟 器 以 及 如 何 测试 模拟 器 的 指导 。 
比较 三 个 版 本 的 冒 泡 排序 的 性 能 (家 庭 作业 4. 47、4. 48 和 4. 49) 。 解 释 为 什么 一 个 版 本 的 性 能 比 其 
他 两 个 的 好 。 


练习 题 答 案 


4.1 


手工 对 指令 编码 是 非常 乏味 的 ， 但 是 它 将 巩固 你 对 汇编 器 将 汇编 代码 变 成 字 节 序 列 的 理解 。 在 下 面 
这 段 Y86-64 汇编 器 的 输出 中 ， 每 一 行 都 给 出 了 一 个 地 址 和 一 个 从 该 地 址 开始 的 字 节 序 列 : 


1 Ox100 : | .pos Ox100 # Start code at address 
0x100 

2 0x100: 30f30f00000000000000 | irmovg $15,%rbx 

3 Oxi0a: 2031 | rrmovg %rbx,%rcx 

4 OxiQc: | loop: 

5 Oxl0Oc: 4013fdffffffffffffff | rmmovd %rcx,-3(%rbx) 

6 0Ox116: 6031 | adqdq  %rbx,%rcx 

7 0x118: 700c01000000000000 | jmp loop 

这 段 编码 有 些 地 方 值得 注意 : 


@ 十 进 制 的 15( 第 2 行 ) 的 十 六 进 制 表示 为 0x000000000000000f。 以 反 向 顺序 来 写 就 是 0f 00 00 00 
00 00 00 00。 

@ 十 进 制 一 3( 第 5 行 ) 的 十 六 进 制 表示 为 0xfffffffffffffffd。 以 反 向 顺序 来 写 就 fd ff ff ff ff 
下 下 eb a 

@ 代码 从 地 址 0x100 开始 。 第 一 条 指令 需要 10 个 字 节 ， 而 第 二 条 需要 2 个 字 节 。 因 此 ， 循 环 的 目 
标 地 址 为 0x0000010c。 以 反 向 顺序 来 写 就 是 0c 01 00 00 00 00 00 00。 

手工 对 一 个 字 节 序列 进行 译 码 能 帮助 你 理解 处 理 器 面临 的 任务 。 它 必须 读 人 字 节 序列 ， 并 确定 要 执 

行 什么 指令 。 接 下 来 ， 我 们 给 出 的 是 用 来 产生 每 个 字 节 序列 的 汇编 代码 。 在 汇编 代码 的 左边 ， 你 可 

以 看 到 每 条 指令 的 地 址 和 字 节 序列 。 
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4.3 


4.4 


部 分 程序 结 攀 和 执行 











A. 一 些 带 立即 数 和 地 址 偏 移 量 的 操作 : 


Ox100: 
Oxl0a: 
Ox1i14: 


30f3fcffffffffffffff | 
40630008000000000000 | 
00 | 


B. 包含 一 个 函数 调用 的 代码 : 


0Ox200 : 
0x202: 
Ox20b : 
Ox20c: 
Ox20c: 
OXx216% 


a06f 
800c02000000000000 
00 


30f30a00000000000000 


| 
| 
| 
| 
| 
90 | 


irmovg $-4,%rbx 
rmmovg %rsi,Ox800(%rbx) 
halt 


Pushq %rsi 
call proc 
halt 
proc: 
irmovg $10,%rbx 
ret 


C. 包含 非法 指令 指示 字 节 0xf0 的 代码 : 


Ox300: 
Ox30a: 
Ox30b: 
Ox30c: 


D. 包含 一 


Ox400: 
Ox400: 
Ox402: 
Ox40b: 


50540700000000000000 | 
10 | 
f0 | 
bolf | 
个 跳 转 操作 的 代码 : 

| 
6113 | 
730004000000000000 | 
00 | 


mrmovq 7(%rsp),%rbp 
nop 

‘byte OxfO # Invalid instruction code 
Popq %rcx 


loop: 
Subq %rcx, %rbx 
je loop 
halt 


E. pushq 指令 中 第 二 个 字 节 非法 的 代码 。 


Ox500: 
Ox502 : 


code 


Ox503: 


6362 | 
a0 | 


£0 | 


specifier byte 


使 用 iaddq 指令 ， 我 们 将 sum 函数 重新 编写 为 


# long sum(long *start, long count) 
# start in %rdi, count in %rsi 


sum: 


XOTQq %rax,%rax 


loop: 


andq %rsi,%rsi 
jmp test 


mrmovg (%rdi),%r1i0 


test: 


addq %r10,%rax 
iaddq $8,%rdi 
iaddq $-1,%rsi 


jne loop 
ret 


xorq %rsi,%rdx 
.byte Oxa0 # Pushq instruction 


.byte 0Oxf0 # Invalid register 


# sum = 0 
# Set condition codes 


Get *start 


start++ 
count~—~ 


# 
# Add to sum 
# 
# 


# Stop when 0 


在 x86-64 机 器 上 运行 时 ，GCC 生成 如 下 rsum 代 码 : 


了 ong rsum(long *start, long count) 


start in Yrdi, count iD %rsi 


rsum: 
movl 
testq 
jle 
Pushq 
movdq 
subq 
addq 


$0, %eax 
Wrsi, %rsi 
.L9 

%rbx 

(Xrdi), %rbx 
$1, Wrsi 

$8, %rdi 








4.5 


4.6 





call rsum 
addq Wrbx, %rax 
popq %TbX 
,L9 : 
rep; ret 


上 述 代 码 很 容易 改编 为 Y86-64 代码 : 


# long rsum(long *start, long count) 
# start in %rdi, count in %rsi 
rsum: 


xord %rax,%rax 
andq %rsi,%rsi 
je return 
pushq %rbx 


mrmovd (%rdi),%rbx 
irmovg $-1,%r10 
addq %r10,%rsi 
irmovg $8,%r10 
addq %r1i0,%rdi 
call rsum 

addq %rbx,%rax 
popq %rbx 


return: 


ret 


Set return value to 0 

Set condition codes 

If count == 0, return 0 
Save callee-saved register 
Get *start 

count-—— 

start++ 

Add *start to sum 


Restore callee-saved register 


这 道 题 给 了 你 一 个 练习 写 汇编 代码 的 机 会 。 


# long absSum(long *start, long count) 
# start in %rdi, count in %rsi 


WN 一 OnPNomAAwN- 


这 道 题 给 了 你 一 个 练习 写 带 条 件 传送 汇编 代码 的 机 会 。 我 们 只 给 出 循环 的 代码 。 剩 下 的 部 分 与 练习 


题 4. 


absSum: 
irmovd $8,%r8 
irmovg $1,%r9 
xorq %rax,%rax 
andq %rsi,%rsi 
jmp test 
loop: 
mrmovq (%rdi),%r10 
xorq %ril,%ril 
subq %r10,%ril 
jle pos 
rrmovq %r1il,%r10 
pos: 
addq %r10,%rax 
addq %r8,%rdi 
subq %r9,%rsi 
test: 
jne 
ret 


loop 


5 的 一 样 。 


loop: 

mrmovq (%rdi),%r10 
xorq %ril,%rii 
subq %r10,%ril 
cmovg %r1il,%r1i0 
addq %r10,%rax 
addq %r8,%rdi 

subq %r9,%rsi 


test: 


jne loop 


# Constant 8 
# Constant 1 
# sum = 0 

# Set condition codes 


# X = *start 

# Constant 0 

# -XxX 

# Skip if -x <= 0 
站 于 二 < 到 
# Add to sum 
# start++ 

# count~— 


# Stop when 0 


# XxX = *start 

# Constant 0 

# -xX 

# If -x > 0 then x = -x 
# Add to sum 

# start++ 

# 


Count 一 一 


# Stop when 0 











4.7 


虽然 难以 想象 这 条 特殊 的 指令 有 什么 实际 的 用 处 ， 但 是 在 设计 一 个 系统 时 ， 在 描述 中 避免 任何 歧义 
是 很 重要 的 。 我 们 想 要 为 这 条 指令 的 行为 确定 一 个 合理 的 规则 ， 并 且 保 证 每 个 实现 都 遵循 这 个 
规则 。 

在 这 个 测试 中 ，subq 指令 将 srsp 的 起 始 值 与 压 人 栈 中 的 值 进 行 了 比较 。 这 个 减法 的 结果 为 0， 
表明 压 人 的 是 srsp 的 旧 值 。 
更 难以 想象 为 什么 会 有 人 想 要 把 值 弹出 到 栈 指 针 。 我 们 还 是 应 该 确定 一 个 规则 ， 并 且 坚 持 它 。 这 段 代 码 
序列 将 0xabcd 压 人 栈 中 ， 弹 出 到 srsp， 然 后 返回 弹出 的 值 。 由 于 结果 等 于 0xabcd， 我 们 可 以 推断 出 
popq srsp 将 栈 指 针 设置 为 从 内 存 中 读 出 来 的 那个 值 。 因 此 ， 它 等 价 于 指令 mrmovq (%rsp),，%rsp。 
EXCLUSIVE-OR 函数 要 求 两 个 位 有 相反 的 值 : 
bool xor = (la && b) || (a && !b); 


通常 ， 信 号 eq 和 xor 是 互补 的 。 也 就 是 ， 一 个 等 于 1， 另 一 个 就 等 于 0。 
EXCLUSIVE-OR 电路 的 输出 是 位 相等 值 的 补 。 根 据 
德 摩根 定律 (网 络 旁 注 DATA:BOOL)， 我 们 能 用 OR 
和 NOT 实现 AND， 得 到 如 图 4-71 所 示 的 电路 : 

我 们 可 以 看 到 情况 表达 式 的 第 二 部 分 可 以 写 为 
B<=C : Bs 

由 于 第 一 行将 检测 出 A 为 最 小 元 素 的 情况 ， 因 此 第 二 
行 就 只 需要 确定 B 还 是 C 是 最 小 元 素 。 

这 个 设计 只 是 对 从 三 个 输入 中 找 出 最 小 值 的 简单 
改变 。 

word Med3 = [ 





A<=B&&B<=C:B; 图 4-71 练习 题 4. 10 的 答案 
C<=B&&B<=A:B; 
B<=A&&A<=C:A; 
C<=Ag&&A<=B:A; 
1 “C3 


J 

这 些 练习 使 各 个 阶段 的 计算 更 加 具体 。 从 目标 代码 中 我 们 可 以 看 到 ， 指 令 位 于 地 址 0x016。 它 由 
10 个 字 节 组 成 ， 前 两 个 字 节 为 0x30 和 0xf4。 后 八 个 字 节 是 0x0000000000000080( 十 进 制 128) 按 
字 节 反 过 来 的 形式 。 


























通用 具体 
阶段 

irmovq V, rB irmovg $128, Srsp 

取 指 icode:ifun 二 M1 LPC] icode:ifun 一 MiLOx016] 王 3:0 
rA:rB 一 MiLPC 十 1] rA:rB +— Mi[0x017]=f£:4 
valC 一 Ms [LPC+2] valC 一 Ms[ 0x018]=128 
valP 二 PC 十 10 valP 二 0x016 十 10 王 0x020 

译 码 

执行 valE 一 0 十 valC valE 二 0 十 128 王 128 

访问 

写 回 RLrB] 一 valE RLsrsp] 一 valE 一 128 

更 新 PC PC 一 valP PC — valP= 0x020 














这 个 指令 将 寄存 器 srsp 设 为 128， 并 将 PC 加 10。 


4.14 我 们 可 以 看 到 指令 位 于 地 址 0x02c， 由 两 个 字 节 组 成 ， 值 分 别 为 0xb0 和 0x00f。pushq 指令 (第 6 


行 ) 将 寄存 器 srsp 设 为 了 120， 并 且 将 9 存放 在 了 这 个 内 存 位 置 。 



































通用 具体 
呈 
PoparA popq Srax 
取 指 icode:ifun «— Mi [PC] icode:ifun 二 Mi[ 0x02c]=b:0 
rA:rB — Mi[PC+1] rA:rB 二 Mi[ 0x02d]=0:f 
valP 一 PC 十 2 valP 二 0x02c 十 2 一 0x02e 
译 码 valA 一 RLsrsp] valA 一 RLsrsp] 王 120 
| 二 RLsrsp] valB 一 RLsrsp] 一 120 
执行 valE 一 valB 十 8 valE 二 120 十 8 三 128 
访 存 valM 二 Ms[valA] valM 二 Ms[120]=9 
写 回 RLsrsp] 一 valE RLsrsp] 一 128 
| RLrA] 一 valM RLsrsp] 一 9 
更 新 PC | PE — valP PC 二 0x02e 











该 指令 将 srax 设 为 9， 将 srsp 设 为 128， 并 将 PC 加 2。 

4.15 沿 着 图 4-20 中 列 出 的 步骤， 这 里 rA 等 于 srsp， 我 们 可 以 看 到 ， 在 访 存 阶段 ， 指 令 会 将 vala( 即 
栈 指针 的 原始 值 ) 存 放 到 内 存 中 ， 与 我 们 在 x86-64 中 发 现 的 一 样 。 

4.16 沿 着 图 4-20 中 列 出 的 步 又， 这 里 rA 等 于 srsp， 我 们 可 以 看 到 ， 两 个 写 回 操作 都 会 更 新 szrsp。 因 
为 写 valM 的 操作 后 发 生 ， 指 令 的 最 终 效果 会 是 将 从 内 存 中 读 出 的 值 写 人 srsp， 就 像 在 x86-64 中 
看 到 的 一 样 。 

4.17 实现 条 件 传送 只 需要 对 寄存 器 到 寄存 器 的 传送 做 很 小 的 修改 。 我 们 简单 地 以 条 件 测 试 的 结果 作为 
写 回 步骤 的 条 件 ， 


cmovXx rA,rB 





取 指 icode :ifun 二 MILPC] 
rA:rB 一 MiLPC 十 ]] 
valP 一 PC 十 2 

译 码 valA — R[rA] 

执行 valE 一 0 十 valA 
Cnd 二 Cond(CC, ifun) 

访 存 

写 回 if(Cnd) 


R[rB]— valE 
更 新 PC PC 二 valP 











4.18 我 们 可 以 看 到 这 条 指令 位 于 地 址 0x037， 长 度 为 9 个 字 节 。 第 一 个 字 节 值 为 0x80， 而 后 面 8 个 字 节 是 
0x0000000000000041 按 字 节 反 过 来 的 形式 ， 即 调用 的 目标 地 址 。popq 指令 (第 7 行 ) 将 栈 指针 设 为 128。 









































阶段 通用 具体 
call Dest call 0x041 
取 指 | icode :ifun 二 Mi[ PC] icode :ifun 二 MiLOx037] 王 8:0 
valC 二 MsLPC 十 1] valC 二 Ms[ 0x038]= 0x041 
valP 二 PC 十 9 valP 二 0x037 十 9 一 0x040 
译 码 valB 一 RLsrsp] valB 一 RLsrsp] 一 128 | 
执行 valE 一 valB 十 一 8 valE 一 128 十 一 8 一 120 
访 存 Ms[valE] 一 valP Ms[120]<— 0x040 
写 回 RLsrsp] 一 valE R[srsp] 一 120 
更 新 PC PC 二 valC PC 二 0x041 
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这 条 指令 的 效果 就 是 将 srsp 设 为 120， 将 0x040( 返 回 地 址 ) 存 放 到 该 内 存 地 址 ， 并 将 PC 设 为 
0x041( 调 用 的 目标 地 址 ) 。 
. 19 ”练习 题 中 所 有 的 HCL 代码 都 很 简单 明了 ， 但 是 试 着 自己 写 会 帮助 你 思考 各 个 指令 ， 以 及 如 何 处 理 
它们 。 对 于 这 个 问题 ， 我 们 只 要 看 看 Y86-64 的 指令 集 ( 图 4-2) ， 确 定 哪 些 有 常数 字段 。 


bool need_valC = 
icode in { IIRMOVQ, IRMMOVQ, IMRMOVQ, IJXX, ICALL }; 


.20 这 段 代码 类 似 于 srcaA 的 代码 : 


word SrcB = [ 
icode in { IOPQ, IRMMOVQ, IMRMOVQ } : rB 
icode in { IPUSHQ, IPOPQ, ICALL, IRET } : RRSP; 
1 : RNONE; # Don't need register 

1 


.21 这 段 代码 类 似 于 dstE 的 代码 : 


word dstM = [ 
icode in { IMRMOVQ, IPOPQ } : rA 
1 : RNONE; # Don't write any register 
]; 
22 像 在 练习 题 4. 16 中 发 现 的 那样 ， 为 了 将 从 内 存 中 读 出 的 值 存放 到 %rsp， 我们 想 让 通过 M 端口 写 
的 优先 级 高 于 通过 下 端口 写 。 
.23 ”这 段 代码 类 似 于 alua 的 代码 : 


word aluB = [ 
icode in { IRMMOVQ, IMRMOVQ, IOPQ, ICALL, 
IPUSHQ, IRET, IPOPQ } : valB; 
icode in { IRRMOVQ, IIRMOVQ } : 0 
# Other instructions don't need ALU 


3 
.24 实现 条 件 传送 令 人 吃惊 的 简单 : 当 条 件 不 满足 时 ， 通 过 将 目的 寄存 器 设置 为 RNONE 禁止 写 寄 存 器 
文件 。 


word dstE = [ 
icode in { IRRMOVQ } && Cnd : rB; 
icode in { IIRMOVQ, IOPQ} : rB 
icode in { IPUSHQ, IPOPQ, ICALL, IRET } : RRSP; 
1 : RNONE; # Don't write any register 
了 


.25 这 段 代 码 类 似 于 mem_addr 的 代码 : 


word mem_data = [ 
# Value from register 
icode in { IRMMOVQ, IPUSHQ } : valA; 
# Return PC 
icode == ICALL : valP; 
# Default: Don't write anything 
J 


26 这 段 代码 类 似 于 mem_read 的 代码 : 
bool mem write = icode in { IRMMOVQ, IPUSHQ, ICALL }; 


.27 ”计算 stat 字段 需要 从 几 个 阶段 收集 状态 信息 : 


## Determine instruction status 
word Stat = [ 
imem_error || dmem_error : SADR; 
linstr_valid: SINS; 
icode == IHALT : SHLT; 
1 : SAOK; 


4.28 


4.30 


4.32 


4.33 








这 个 题目 非常 有 趣 ， 它 试图 在 一 组 划分 中 找到 优化 平衡 。 它 提供 了 大 量 的 机 会 来 计算 许多 流水 线 

的 吞吐 量 和 延迟 。 

A. 对 一 个 两 阶段 流水 线 来 说 ， 最 好 的 划分 是 块 A、B 和 C 在 第 一 阶段 , 块 D、E 和 下 在 第 二 阶 
段 。 第 一 阶段 的 延迟 为 170ps， 所 以 整个 周期 的 时 长 为 170 十 20 二 190ps。 因 此 吞吐 量 为 5. 26 
GIPS， 而 延迟 为 380ps。 

B. 对 一 个 三 阶段 流水 线 来 说 ， 应 该 使 块 A 和 忆 在 第 一 阶段 ， 块 C 和 D 在 第 二 阶段 ， 而 块 下 和 下 
在 第 三 阶段 。 前 两 个 阶段 的 延迟 均 为 110ps， 所 以 整个 周期 时 长 为 130ps， 而 吞吐 量 为 7. 69 
GIPS。 延 迟 为 390ps。 

C. 对 一 个 四 阶段 流水 线 来 说 ， 块 A 为 第 一 阶段 ,， 块 B 和 C 在 第 二 阶段 ， 块 D 是 第 三 阶段 ， 而 块 
EE 和 下 在 第 四 阶段 。 第 二 阶段 需要 90ps， 所 以 整个 周期 时 长 为 110ps， 而 吞吐 量 为 9. 09 GIPS。 
延迟 为 440ps。 

D. 最 优 的 设计 应 该 是 五 阶段 流水 线 ， 除 了 正和 下 处 于 第 五 阶段 以 外 ， 其 他 每 个 块 是 一 个 阶段 。 周 
期 时 长 为 80 十 20==100ps， 吞 吐 量 为 大 约 10. 00 GIPS， 而 延迟 为 500ps。 变 成 更 多 的 阶段 也 不 
会 有 帮助 了 ， 因 为 不 可 能 使 流水 线 运 行 得 比 以 100ps 为 一 周期 还 要 快 了 。 

每 个 阶段 的 组 合 逻 辑 都 需要 300/kps， 而 流水 线 寄存 器 需要 20ps。 

A. 整个 的 延迟 应 该 是 300 十 20&ps， 而 吞吐 量 ( 以 GIPS 为 单位 ) 应 该 是 


1000 _ _1000k 
O40 300 十 20k 








B. 当 & 趋 近 于 无 穷 大 ， 香 吐 量变 为 1 000/20=50 GIPS。 当 然 ， 这 也 使 得 延迟 为 无 穷 大 。 
这 个 练习 题 量化 了 很 深 的 流水 线 引 起 的 收益 下 降 。 当 我 们 试图 将 逻辑 分 割 为 很 多 阶段 时 ， 流 水 线 
寄存 器 的 延迟 成 为 了 一 个 制约 因素 。 
这 段 代码 非常 类 似 于 SEQ 中 相应 的 代码 ， 除 了 我 们 还 不 能 确定 数据 内 存 是 否 会 为 这 条 指令 产生 一 
个 错误 信和 号。 
# Determine Status code for fetched instruction 
Word f_stat = [ 
imem_error: SADR; 
linstr_valid : SINS; 
f_icode == IHALT : SHLT; 
1 : SAOK; 
18 


这 段 代码 只 是 简单 地 给 SEQ 代码 中 的 信和 号 名 前 加 上 前 级 “d_ ”和 “DpD_”。 


word d_dstE = [ 


D_icode in { IRRMOVQ, IIRMOVQ, IOPQ} : D_rB; 

D_icode in { IPUSHQ, IPOPQ, ICALL, IRET } : RRSP; 

1 : RNONE; # Don't write any register 
]; 
由 于 popq 指令 (第 4 行 ) 造 成 的 加 载 /使 用 冒险 ，rrmova 指令 (第 5 行 ) 会 暂停 一 个 周期 。 当 它 进入 
译 码 阶 段 ，popq 指令 处 于 访 存 阶段 ,使 M_dstE 和 M dstM 都 等 于 srsp。 如 果 两 种 情况 反 过 来 ， 那 
么 来 自 M_valE 的 写 回 优先 级 较 高 ， 导 致 增加 了 的 栈 指针 被 传送 到 rrmovq 指令 作为 参数 。 这 与 练 
习题 4. 8 中 确定 的 处 理 popd srsp 的 惯例 不 一 致 。 
这 个 问题 让 你 体验 一 下 处 理 器 设计 中 一 个 很 重要 的 任务 一 一 为 一 个 新 处 理 器 设计 测试 程序 。 通 常 ， 
我 们 的 测试 程序 应 该 能 测试 所 有 的 冒险 可 能 性 ， 而 且 一 旦 有 相关 不 能 被 正确 处 理 ， 就 会 产生 错误 
的 结果 。 

对 于 此 例 ， 我 们 可 以 使 用 对 练习 题 4. 32 中 所 示 的 程序 稍微 修改 的 版 本 : 
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4. 35 


4. 37 


irmovd $5, %rdx 
irmovg $0Ox1i00,%Xrsp 
rmmovg %rdx,0(Xrsp) 
Popq %rsp 

nop 

nop 

TImOVq %rsp,%rax 


两 个 nop 指令 会 导致 当 rrmovq 指令 在 译 码 阶 段 中 时 ，popq 指令 处 于 写 回 阶段 。 如 果 给 予 处 
于 写 回 阶段 中 的 两 个 转发 源 错误 的 优先 级 ， 那 么 寄存 器 $rax 会 设置 成 增加 了 的 程序 计数 器 ， 而 不 
是 从 内 存 中 读 出 的 值 。 
这 个 逻辑 只 需要 检查 5 个 转发 源 : 
word d_valB = [ 


NawmwwhN 一 


d_srcB == e_dstE : e_valE; # Forward valE from execute 
d_srcB == M_dstM : m_valM; # Forward valM from memory 
d_srcB == M_dstE : M_valE; # Forward valE from memory 
d_srcB == W_dstM : W_valM; # Forward valM from write back 
d_srcB == W_dstE : W_valE; # Forward valE from write back 


1 : d_rvalB; # Use value read from register file 


1 
这 个 改变 不 会 处 理 条 件 传送 不 满足 条 件 的 情况 ， 因 此 将 dstE 设置 为 RNONE。 即 使 条 件 传 送 并 没有 
发 生 ， 结 果 值 还 是 会 被 转发 到 下 一 条 指令 。 


irmovg $0x123,%rax 


1 

irmovq $Ox321 ,%rdx 

3 XOLQq XTCX，XTCX # CC = 100 

4 cmovne MX%TaxyXTrdXx # Not transferred 
5 addq %rdx,%rdx # Should be 0x642 
6 halt 


这 段 代 码 将 寄存 器 $rdx 初始 化 为 0x321。 条 件数 据 传 送 没有 发 生 ， 所 以 最 后 的 addq 指令 应 
该 把 srdx 中 的 值 翻 倍 ， 得 到 0x642。 不 过 ， 在 修改 过 的 版 本 中 ， 条 件 传送 源 值 0x123 被 转发 
到 ALU 的 输入 vala， 而 valB 正确 地 得 到 了 操作 数值 0x321。 两 个 输入 加 起 来 就 得 到 结 
果 0x444。 

这 段 代 码 完成 了 对 这 条 指令 的 状态 码 的 计算 。 


## Update the status 

word m_stat = [ 
dmem_error : SADR; 
> aks 

3 


设计 下 面 这 个 测试 程序 来 建立 控制 组 合 A( 图 4-67)， 并 探测 是 否 出 了 错 : 


1 # Code to generate a combination of not-taken branch and ret 

2 irmovg Stack, %rsp 

3 irmovg rtnp,%rax 

4 pushq %rax # Set up return pointer 

5 Xorq hrax,%rax # Set Z condition code 

6 jne target # Not taken (First part of combination) 
irmovg $1,%rax # Should execute this 

8 

9 


hait 
target: ret # Second part of combination 
10 irmovq $2,%rbx # Should not execute this 
11 halt 
12 Itnp: irmovg $3,%rdx # Should not execute this 
13 halt 


14 .Pos Ox40 
1 Stack: 


4.38 


4.40 


4.41 





设计 这 个 程序 是 为 了 出 错 ( 例 如 如 果实 际 上 执行 了 ret 指令 ) 时 ， 程序 会 执行 一 条 额外 的 ir- 
movq 指令 ， 然 后 停止 。 因 此 ， 流 水 线 中 的 错误 会 导致 某 个 寄存 器 更 新 错误 。 这 段 代 码 说 明 实 现 测 
试 程序 需要 非常 小 心 。 它 必须 建立 起 可 能 的 错误 条 件 ， 然 后 再 探测 是 否 有 错误 发 生 。 
设计 下 面 这 个 测试 程序 用 来 建立 控制 组 合 B( 图 4-67)。 模 拟 器 会 发 现 流 水 线 寄存 器 的 气泡 和 暂停 
控制 信号 都 设置 成 0 的 情况 ， 因 此 我 们 的 测试 程序 只 需要 建立 它 需要 发 现 的 组 合 情 况 。 最 大 的 挑 
战 在 于 当 处 理 正确 时 ， 程 序 要 做 正确 的 事情 。 


# Test :instruction that modifies %esp followed by ret 

部 irmovg mem,%rbx 

3 mrmovq 0(%rbx),%rsp # Sets %rsp to point to return point 
4 ret # Returns to return point 

5 halt 并 

6 rtnpt: irmovd $5,%rsi # Return point 

7 halt 

8 .pos Ox40 

9 mem: .quad stack # Holds desired stack pointer 

10 .pos Ox50 

11 stack: .quad rtnpt # Top of stack: Holds return point 





这 个 程序 使 用 了 内 存 中 两 个 初始 化 了 的 字 。 第 一 个 字 (mem) 保 存 着 第 二 个 字 (stack 一 一 期 望 
的 栈 指针 ) 的 地 址 。 第 二 个 字 保 存 着 ret 指令 期 望 的 返回 点 的 地 址 。 这 个 程序 将 栈 指针 加 载 到 
%rsp， 并 执行 ret 指令 。 

从 图 4-66 我 们 可 以 看 到 ， 由 于 加 载 /使 用 冒险 ,流水 线 寄存 器 D 必须 暂停 。 


bool D_stall = 
# Conditions for a load/use hazard 
E_icode in { IMRMOVQ, IPOPQ } && 
E_dstM in { d_srcA, d_srcB }; 


从 图 4-66 中 可 以 看 到 ， 由 于 加 载 /使 用 冒险 ， 或 者 由 于 分 支 预测 错误 ， 流 水 线 寄存 器 EE 必须 设置 
成 气泡 : 
bool E_bubble = 

# Mispredicted branch 

(E_icode == IJXX && le_Cnd) || 

# Conditions for a load/use hazard 

E_icode in { IMRMOVQ, IPOPQ } && 

E_dstM in { d_srcA, d_srcB}; 


这 个 控制 需要 检查 正在 执行 的 指令 的 代码 ， 还 需要 检查 流水 线 中 更 后 面 阶段 中 的 异常 。 
## Should the condition codes be updated? 
bool set_cc = E_icode == IOPQ && 

# State changes only during normal operation 

Im_stat in { SADR, SINS, SHLT } && !W_stat in { SADR, SINS, SHLT }; 


在 下 一 个 周期 向 访 存 阶段 插入 气泡 需要 检查 当前 周期 中 访 存 或 者 写 回 阶段 中 是 否 有 异常 。 


# Start injecting bubbles as soon as exception passes through memory stage 
bool M_bubble = m_stat in { SADR, SINS, SHLT } || W_stat in { SADR, SINS, SHLT }; 


对 于 暂停 写 回 阶段 ， 只 用 检查 这 个 阶段 中 的 指令 的 状态 。 如 果 当 访 存 阶段 中 有 异常 指令 时 我 
们 也 暂停 了 ， 那 么 这 条 指令 就 不 能 进入 写 回 阶 段 。 
bool W_stall = W_stat in { SADR, SINS, SHLT }; 


此 时 ， 预测 错误 的 频率 是 0.35， 得 到 mp 二 0. 20X0.35X2==0.14， 而 整个 CPI 为 1.25。 看 上 去 收 
获 非常 小 ， 但 是 如 果实 现 新 的 分 支 预测 策略 的 成 本 不 是 很 高 的 话 ， 这 样 做 还 是 值得 的 。 

在 这 个 简化 的 分 析 中 ， 我 们 把 注意 力 放 在 了 内 循环 上 ， 这 是 估计 程序 性 能 的 一 种 很 有 用 的 方法 。 
只 要 数组 足够 大 ， 花 在 代码 其 他 部 分 的 时 间 可 以 忽略 不 计 。 

A. 使 用 条 件 转移 的 代码 的 内 循环 有 9 条 指令 ， 当 数组 元 素 是 0 或 者 为 负 时 ， 这 些 指 令 都 要 执行 ， 
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当 数 组 元 素 为 正 时 ， 要 执行 其 中 的 8 条 。 平 均 是 8. 5 条 。 使 用 条 件 传送 的 代码 的 内 循环 有 8 条 
指令 ， 每 次 都 必须 执行 。 

B. 用 来 实现 循环 闭合 的 跳 转 除了 当 循 环 中 止 时 之 外 ， 都 能 预测 正确 。 对 于 非常 长 的 数组 ， 这 个 预 
测 错误 对 性 能 的 影响 可 以 忽略 不 计 。 对 于 基于 跳 转 的 代码 ， 其 他 唯一 可 能 引起 气泡 的 源 取决 于 
数组 元 素 是 否 为 正 的 条 件 转移 。 这 会 导致 两 个 气泡 ， 但 是 只 在 50% 的 时 间 里 会 出 现 ， 所 以 平 
均值 是 1.0。 在 条 件 传 送 代码 中 ， 没 有 气泡 。 

C. 我 们 的 条 件 转移 代码 对 于 每 个 元 素平 均 需 要 8. 5 十 1. 0 一 9. 5 个 周期 (最 好 情况 要 9 个 周期 ,最 
差 情 况 要 10 个 周期 )， 而 条 件 传 送 代码 对 于 所 有 的 情况 都 需要 8. 0 个 周期 。 

我 们 的 流水 线 的 分 支 预测 错误 处 罚 只 有 两 个 周期 一 一 远 比 对 性 能 更 高 的 处 理 器 中 很 深 的 流水 

线 造成 的 处 罚 要 小 得 多 。 因 此 ， 使 用 条 件 传送 对 程序 性 能 的 影响 不 是 很 大 。 





第 5 章 
Oy et A eT Ee Rs 


优化 程序 性 能 


写 程序 最 主要 的 目标 就 是 使 它 在 所 有 可 能 的 情况 下 都 正确 工作 。 一 个 运行 得 很 快 但 是 
给 出 错误 结果 的 程序 没有 任何 用 处 。 程 序 员 必须 写 出 清晰 简洁 的 代码 ， 这 样 做 不 仅 是 为 了 
自己 能 够 看 懂 代 码 ， 也 是 为 了 在 检查 代码 和 今后 需要 修改 代码 时 ， 其 他 人 能 够 读 懂 和 理解 
代码 。 

男 一 方面 ， 在 很 多 情况 下 ， 让 程序 运行 得 快 也 是 一 个 重要 的 考虑 因素 。 如 果 一 个 程序 
要 实时 地 处 理 视频 帧 或 者 网 络 包 ， 一 个 运行 得 很 慢 的 程序 就 不 能 提供 所 需 的 功能 。 当 一 个 
计算 任务 的 计算 量 非常 大 ， 需 要 执行 数 日 或 者 数 周 ， 那 么 哪怕 只 是 让 它 运 行 得 快 20% 也 会 
产生 重大 的 影响 。 本 章 会 探讨 如 何 使 用 几 种 不 同类 型 的 程序 优化 技术 ， 使 程序 运行 得 
更 快 。 

编写 高 效 程序 需要 做 到 以 下 几 点 : 第 一 ， 我 们 必须 选择 一 组 适当 的 算法 和 数据 结构 。 
第 二 ， 我 们 必须 编写 出 编译 器 能 够 有 效 优化 以 转换 成 高 效 可 执行 代码 的 源 代码 。 对 于 这 第 
二 点 ， 理 解 优化 编译 器 的 能 力 和 局 限 性 是 很 重要 的 。 编 写 程序 方式 中 看 上 去 只 是 一 点 小 小 
的 变动 ， 都 会 引起 编译 器 优化 方式 很 大 的 变化 。 有 些 编程 语言 比 其 他 语言 容易 优化 。C 语 
言 的 有 些 特 性 ， 例 如 执行 指针 运算 和 强制 类 型 转换 的 能 力 ， 使 得 编译 器 很 难 对 它 进行 优 
化 。 程序 员 经 常 能 够 以 一 种 使 编译 器 更 容易 产生 高 效 代码 的 方式 来 编写 他 们 的 程序 。 第 三 
项 技术 针对 处 理 运 算 量 特别 大 的 计算 ， 将 一 个 任务 分 成 多 个 部 分 ， 这 些 部 分 可 以 在 多 核 和 
多 处 理 器 的 某 种 组 合 上 并 行 地 计算 。 我 们 会 把 这 种 性 能 改进 的 方法 推迟 到 第 12 章 中 去 讲 。 
即使 是 要 利用 并 行 性 ， 每 个 并 行 的 线程 都 以 最 高 性 能 执行 也 是 非常 重要 的 ， 所 以 无 论 如 何 
本 章 所 讲 的 内 容 也 还 是 有 意义 的 。 

在 程序 开发 和 优化 的 过 程 中 ， 我 们 必须 考虑 代码 使 用 的 方式 ， 以 及 影响 它 的 关键 因 
素 。 通常 ， 程 序 员 必 须 在 实现 和 维护 程序 的 简单 性 与 它 的 运行 速度 之 间 做 出 权衡 。 在 算法 
级 上 ， 几 分 钟 就 能 编写 一 个 简单 的 插入 排序 ， 而 一 个 高 效 的 排序 算法 程序 可 能 需要 一 天 或 
更 长 的 时 间 来 实现 和 优化 。 在 代码 级 上 ， 许 多 低级 别 的 优化 往往 会 降低 程序 的 可 读 性 和 模 
块 性 ， 使 得 程序 容易 出 错 ， 并 且 更 难以 修改 或 扩展 。 对 于 在 性 能 重要 的 环境 中 反复 执行 的 
代码 ， 进 行 大 量 的 优化 会 比较 合适 。 一 个 挑战 就 是 尽管 做 了 大 量 的 变化 ， 但 还 是 要 维护 代 
码 一 定 程度 的 简洁 和 可 读 性 。 

我 们 描述 许多 提高 代码 性 能 的 技术 。 理 想 的 情况 是 ， 编 译 器 能 够 接受 我 们 编写 的 任何 
代码 ， 并 产生 尽 可 能 高 效 的 、 具 有 指定 行为 的 机 器 级 程序 。 现 代 编 译 器 采用 了 复杂 的 分 析 
和 优化 形式 ， 而 且 变 得 越 来 越 好 。 然 而 ， 即 使 是 最 好 的 编译 器 也 受到 妨碍 优化 的 因素 
(optimization blocker) 的 阻碍 ， 妨 碍 优化 的 因素 就 是 程序 行为 中 那些 严重 依赖 于 执行 环境 
的 方面 。 程 序 员 必 须 编 写 容易 优化 的 代码 ， 以 帮助 编译 器 。 

程序 优化 的 第 一 步 就 是 消除 不 必要 的 工作 ， 让 代码 尽 可 能 有 效 地 执行 所 期 望 的 任务 。 
这 包括 消除 不 必要 的 函数 调用 、 条 件 测 试 和 内 存 引 用 。 这 些 优 化 不 依赖 于 目标 机 器 的 任何 
具体 属性 。 

为 了 使 程序 性 能 最 大 化 ， 程 序 员 和 编译 器 都 需要 一 个 目标 机 器 的 模型 ， 指 明 如 何 处 理 指 








令 ， 以 及 各 个 操作 的 时 序 特 性 。 例 如 ， 编 译 器 必须 知道 时 序 信息 ， 才 能 够 确定 是 用 一 条 乘法 
指令 ， 还 是 用 移 位 和 加 法 的 某 种 组 合 。 现 代 计 算 机 用 复杂 的 技术 来 处 理 机 器 级 程序 ， 并 行 地 
执行 许多 指令 ， 执 行 顺序 还 可 能 不 同 于 它们 在 程序 中 出 现 的 顺序 。 程 序 员 必须 理解 这 些 处 理 
器 是 如 何 工 作 的 ， 从 而 调整 他 们 的 程序 以 获得 最 大 的 速度 。 基 于 Intel 和 AMD 处 理 器 最 近 的 
设计 ， 我 们 提出 了 这 种 机 器 的 一 个 高 级 模型 。 我 们 还 设计 了 一 种 图 形 数据 流 (data-flow) 表 示 
法 ， 可 以 使 处 理 器 对 指令 的 执行 形象 化 ， 我 们 还 可 以 利用 它 预 测 程序 的 性 能 

了 解 了 处 理 器 的 运作 ， 我 们 就 可 以 进行 程序 优化 的 第 二 步 ， 利用 处 理 器 提供 的 指令 级 并 
行 (instruction-level parallelism) 能 力 ， 同 时 执行 多 条 指令 。 我 们 会 讲述 几 个 对 程序 的 变化 ， 降 
低 一 个 计算 的 不 同 部 分 之 间 的 数据 相关 ， 增 加 并 行 度 ， 这 样 就 可 以 同时 执行 这 些 部 分 了 。 

我 们 以 对 优化 大 型 程序 的 问题 的 讨论 来 结束 这 一 章 。 我 们 描述 了 代码 训 析 程序 (profi- 
ler) 的 使 用 ， 代 码 剖 析 程 序 是 测量 程序 各 个 部 分 性 能 的 工具 。 半 和 从 村 朋 守 训 助 费 到 代 油 
中 低 效 率 的 地 方 ， 并 且 确 定 程序 中 我 们 应 该 着 重 优化 的 部 分 。 

在 本 章 的 描述 中 ， 我 们 使 代码 优化 看 起 来 像 按 照 某 种 特殊 顺序 ， 对 代码 进行 一 系列 转 
换 的 简单 线性 过 程 。 实 际 上 ， 这 项 工作 远 非 这 么 简单 。 需 要 相当 多 的 试 错 法 试验 。 当 我 们 
进行 到 后 面 的 优化 阶段 时 ， 尤 其 是 这 样 ， 到 那 时 ， 看 上 去 很 小 的 变化 会 导致 性 能 上 很 大 的 
变化 。 相 反 ， 一 些 看 上 去 很 有 希望 的 技术 被 证 明 是 无 效 的 。 正 如 后 面 的 例子 中 会 看 到 的 那 
样 ， 要 确切 解释 为 什么 某 段 代码 序列 具有 特定 的 执行 时 间 ， 是 很 困难 的 。 性 能 可 能 依赖 于 
处 理 器 设计 的 许多 细节 特性 ， 而 对 此 我 们 所 知 甚 少 。 这 也 是 为 什么 要 尝试 各 种 技术 的 变形 
和 组 合 的 另 一 个 原因 。 

研究 程序 的 汇编 代码 表示 是 理解 编译 器 以 及 产生 的 代码 会 如 何 运行 的 最 有 效 手 段 之 
一 。 仔 细 研 究 内 循环 的 代码 是 一 个 很 好 的 开端 ， 识 别 出 降 低 性 能 的 属性 ， 例 如 过 多 的 内 存 
引用 和 对 寄存 器 使 用 不 当 。 从 汇编 代码 开始 ， 我 们 还 可 以 预测 什么 操作 会 并 行 执行 ， 以 及 
它们 会 如 何 使 用 处 理 器 资源 。 正 如 我 们 会 看 到 的 ， 常 常 通过 确认 关键 路 径 (critical path) 来 
决定 执行 一 个 循环 所 需要 的 时 间 ( 或 者 说 ， 至 少 是 一 个 时 间 下 界 )。 所 谓 关键 路 径 是 在 循环 
的 反复 执行 过 程 中 形成 的 数据 相关 链 。 然 后 ， 我 们 会 回 过 头 来 修改 源 代 码 ， 试 着 控制 编译 
器 使 之 产生 更 有 效率 的 实现 。 

大 多 数 编译 器 ， 包 括 GCC， 一 直 都 在 更 新 和 改进 ， 特 别 是 在 优化 能 力 方 面 。 一 个 很 
有 用 的 策略 是 只 重 写 程序 到 编译 器 由 此 就 能 产生 有 效 代 码 所 需要 的 程度 就 好 了 。 这 样 ， 能 
尽量 避免 损害 代码 的 可 读 性 、 模 块 性 和 可 移植 性 ， 就 好 像 我 们 使 用 的 是 具有 最 低能 力 的 编 
译 器 。 同 样 ， 通 过 测量 值 和 检查 生成 的 汇编 代码 ， 反 复 修 改 源 代码 和 分 析 它 的 性 能 是 很 有 
帮助 的 。 

对 于 新 手 程 序 员 来 说 ， 不 断 修改 源 代码 ， 试 图 欺骗 编译 器 产生 有 效 的 代码 ， 看 起 来 和 
奇怪 ,但 这 确实 是 编写 很 多 高 性 能 程序 的 方式 。 比 较 于 另 一 种 方法 一 一 用 汇编 语言 写 代 
码 ， 这 种 间接 的 方法 具有 的 优点 是 : 虽然 性 能 不 一 定 是 最 好 的 ， 但 得 到 的 代码 仍然 能 够 在 
其 他 机 器 上 运行 。 


5.1 优化 编译 器 的 能 力 和 局 限 性 


现代 编译 器 运用 复杂 精细 的 算法 来 确定 一 个 程序 中 计算 的 是 什么 值 ， 以 及 它们 是 被 如 
何 使 用 的 。 然 后 会 利用 一 些 机 会 来 简化 表达 式 ， 在 几 个 不 同 的 地 方 使 用 同一 个 计算 ， 以 及 
降低 一 个 给 定 的 计算 必须 被 执行 的 次 数 。 大 多 数 编译 器 ， 包 括 GCC， 向 用 户 提供 了 一 些 
对 它们 所 使 用 的 优化 的 控制 。 就 像 在 第 3 章 中 讨论 过 的 ， 最 简单 的 控制 就 是 指定 优化 级 
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别 。 例 如 ， 以 命令 行 选项 “-0g” 调 用 GCC 是 让 GCC 使 用 一 组 基本 的 优化 。 以 选项 “- 
01” 或 更 高 (如 “-02” 或 “-03”) 调 用 GCC 会 让 它 使 用 更 大 量 的 优化 。 这 样 做 可 以 进一步 
提高 程序 的 性 能 ， 但 是 也 可 能 增加 程序 的 规模 ， 也 可 能 使 标准 的 调试 工具 更 难 对 程序 进行 
调试 。 我 们 的 表述 ， 虽 然 对 于 大 多 数 使 用 GCC 的 软件 项 目 来 说 ， 优 化 级 别 -02 已 经 成 为 
了 被 接受 的 标准 ， 但 是 还 是 主要 考虑 以 优化 级 别 -01 编译 出 的 代码 。 我 们 特意 限制 了 优化 
级 别 ， 以 展示 写 C 语言 函数 的 不 同方 法 如 何 影响 编译 器 产生 代码 的 效率 。 我 们 会 发 现 可 以 
写 出 的 C 代码 ， 即 使 用 -ol 选项 编译 得 到 的 性 能 ， 也 比 用 可 能 的 最 高 的 优化 等 级 编译 一 个 
更 原始 的 版 本 得 到 的 性 能 

编译 器 必须 很 小 心地 对 程序 只 使 用 安全 的 优化 ， 也 就 是 说 对 于 程序 可 能 遇 到 的 所 有 可 
能 的 情况 ， 在 C 语言 标准 提供 的 保证 之 下 ， 优 化 后 得 到 的 程序 和 未 优化 的 版 本 有 一 样 的 行 
为 。 限 制 编译 器 只 进行 安全 的 优化 ， 消 除了 造成 不 希望 的 运行 时 行为 的 一 些 可 能 的 原因 ， 
但 是 这 也 意味 着 程序 员 必须 花费 更 大 的 力气 写 出 编译 器 能 够 将 之 转换 成 有 效 机 器 代码 的 程 
序 。 为 了 理解 决定 一 种 程序 转换 是 否 安全 的 难度 ， 让 我 们 来 看 看 下 面 这 两 个 过 程 : 
void twiddlei(long *xp, long *yp) 


1 

加 

3 *Xxp += *yPp; 

4 *Xp += *yPp; 

有 ， 王 

6 

7 void twiddle2(long *xp, long *yp) 
避 玉 

9 *Xp += 2* *yp; 

i060 小 


乍 一 看 ， 这 两 个 过 程 似 乎 有 相同 的 行为 。 它 们 都 是 将 存储 在 由 指针 yp 指示 的 位 置 处 
的 值 两 次 加 到 指针 xp 指示 的 位 置 处 的 值 。 另 一 方面 ， 函 数 twiddle2 效率 更 高 一 些 。 它 
只 要 求 3 次 内 存 引 用 ( 读 *xp， 读 *yp， 写 *xp)， 而 twiddlel 需要 6 次 (2 次 读 *xp，2 次 读 
*yp，2 次 写 *xp)。 因 此 ， 如 果 要 编译 器 编译 过 程 twiddlel1， 我 们 会 认为 基于 twiddle2 
执行 的 计算 能 产生 更 有 效 的 代码 。 

不 过 ， 考 虑 xp 等 于 yp 的 情况 。 此 时 ， 函 数 twidqlel 会 执行 下 面 的 计算 : 


*xp += *xp; /* Double value at xp */ 


4 *XPp += *xp; /* Double value at xp */ 
结果 是 xp 的 值 增加 4 倍 。 另 一 方面 ， 函 数 twiddle2 会 执行 下 面 的 计算 : 
9 *XP += 2* *xp; /* Triple value at xp */ 


结果 是 xp 的 值 增加 3 倍 。 编 译 器 不 知道 twidqlel 会 如 何 被 调用 ， 因 此 它 必须 假设 参数 xp 
和 yp 可 能 会 相等 。 因 此 ， 它 不 能 产生 twiddle2 风格 的 代码 作为 twidqlel 的 优化 版 本 。 

这 种 两 个 指针 可 能 指向 同一 个 内 存 位 置 的 情况 称 为 内 存 别名 使 用 (memory aliasing) 。 
在 只 执行 安全 的 优化 中 ， 编 译 器 必须 假设 不 同 的 指针 可 能 会 指向 内 存 中 同一 个 位 置 。 再 看 
一 个 例子 ， 对 于 一 个 使 用 指针 变量 p 和 q 的 程序 ， 考 虑 下 面 的 代码 序列 : 

x = 1000; y = 3000; 

*q = yi /* 3000 */ 

*p = XxX; /* 1000 */ 

tl = *q; /* 1000 or 3000 */ 
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t1 的 计算 值 依 赖 于 指针 p 和 qg 是 否 指向 内 存 中 同一 个 位 置 一 一 如 果 不 是 ，tl 就 等 于 
3000， 但 如 果 是 ，t1 就 等 于 1000。 这 造成 了 一 个 主要 的 妨碍 优化 的 因素 ， 这 也 是 可 能 严 
重 限 制 编译 器 产生 优化 代码 机 会 的 程序 的 一 个 方面 。 如 果 编 译 器 不 能 确定 两 个 指针 是 否 指 
向 同一 个 位 置 ， 就 必须 假设 什么 情况 都 有 可 能 ， 这 就 限制 了 可 能 的 优化 策略 。 

让 加 练习 题 5.1 下 面 的 问题 说 明了 内 存 别名 使 用 可 能 会 导致 意 想不到 的 程序 行为 的 方 

式 。 考 虑 下 面 这 个 交换 两 个 值 的 过 程 : 


/* Swap Value x at xp with value y at yp */ 


1 
2 void swap(long *xp, long *yp) 

于 

4 *xXp = *xp + *yp; /* x+y */ 

5 *yp = *xp 一 *yp; /* Xt+ty-y = Xx */ 

6 *Xp = #XP 一 *yp; /* Xty-x = 了 */ 

下 寺 

如 果 调 用 这 个 过 程 时 xp 等 于 yp， 会 有 什么 样 的 效果 ? 

第 二 个 妨碍 优化 的 因素 是 函数 调用 。 作 为 一 个 示例 ， 考 虑 下 面 这 两 个 过 程 : 
i long £0; 

2 

3 long funci() { 

让 retbirzi FC) + (6) + EC) + E03 

入 ”站 

6 

7 long func2() { 

8 return 4*f(); 

9 


最 初 看 上 去 两 个 过 程 计 算 的 都 是 相同 的 结果 ,但 是 func2 只 调用 f 一次， 而 funcl 
调用 于 四 次 。 以 funcl 作为 源 代码 时 ， 会 很 想 产 生 func2 风格 的 代码 。 
不 过 ， 考 虑 下 面 f£ 的 代码 : 


long counter = 0; 


1 

2 

3 long f() + 
4 return counter+t++; 
和 


} 

这 个 函数 有 个 副作用 一 一 它 修改 了 全 局 程序 状态 的 一 部 分 。 改 变调 用 它 的 次 数 会 改变 
程序 的 行为 。 特 别 地 ， 假 设 开始 时 全 局 变量 counter 都 设置 为 0， 对 funcl 的 调用 会 返回 
0 十 1 十 2 十 3 二 6， 而 对 func2 的 调用 会 返回 4， 0==0。 

大 多 数 编译 器 不 会 试图 判断 一 个 函数 是 否 没 有 副作用 ， 如 果 没 有 ， 就 可 能 被 优化 成 像 
func2 中 的 样子 。 相 反 ， 编 译 器 会 假设 最 糟 的 情况 ， 并 保持 所 有 的 函数 调用 不 变 。 


月 下联 而 到 办 珊 优 化 画 娄 调用 
包含 函数 调用 的 代码 可 以 用 一 个 称 为 内 联 函 数 替 换 (inline substitution， 或 者 简称 
“内 联 (inlining)”) 的 过 程 进行 优化 ， 此 时 ， 将 函数 调用 替换 为 函数 体 。 例 如 ， 我 们 可 以 
通过 替换 掉 对 函数 工 的 四 次 调用 ， 展 开 funcl 的 代码 : 
1 /* Result of inlining f in funci */ 


2 long funciin() { 
3 long 七 = counter++; /* +0 */ 
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4 t += Counter++; /* +1 */ 
5 七 += counter++; /* +2 */ 
”> t += Counter++; /* +3 */ 
return t; 

BB 


这 样 的 转换 既 减 少 了 函数 调用 的 开销 ， 也 允许 对 展开 的 代码 做 进一步 优化 。 例 如 ， 编 
译 器 可 以 统一 funclin 中 对 全 局 变量 counter 的 更 新 ， 产 生 这 个 函数 的 一 个 优化 版 本 : 


1 /* Optimization of inlined code */ 
2 long funciopt() { 

3 long t = 4 * counter + 6; 

4 counter += 4; 

5 return 七 ， 

Ge 


对 于 这 个 特定 的 函数 工 的 定义 ， 上 述 代 码 忠实 地 重 现 了 funcl 的 行为 。 

GCC 的 最 近 版 本 会 尝试 进行 这 种 形式 的 优化 ， 要 么 是 被 用 命令 行 选项 “-finline” 
指示 时 ， 要 么 是 使 用 优化 等 级 -O01 或 者 更 高 的 等 级 时 。 遗 憾 的 是 ，GCC 只 尝试 在 单个 文 
件 中 定义 的 函数 的 内 联 。 这 就 意味 着 它 将 无 法 应 用 于 常见 的 情况 ， 即 一 组 库 函 数 在 一 个 
文件 中 被 定义 ， 却 被 其 他 文件 内 的 函数 所 调用 。 

在 某 些 情况 下 ， 最 好 能 阻止 编译 器 执行 内 联 替 换 。 一 种 情况 是 用 符号 调试 器 来 评估 代 
码 ， 比 如 GDB， 如 3.10.2 节 描 述 的 一 样 。 如 果 一 个 函数 调用 已 经 用 内 联 替换 优化 过 了 ， 那 么 
任何 对 这 个 调用 进行 追踪 或 设置 断 点 的 尝试 都 会 失败 。 还 有 一 种 情况 是 用 代码 剖析 的 方式 来 
评估 程序 性 能 ， 如 5. 14. 1 节 讨 论 的 一 样 。 用 内 联 蔡 换 消除 的 函数 调用 是 无 法 被 正确 剖析 的 。 


在 各 种 编译 器 中 ， 就 优化 能 力 来 说 ，GCC 被 认为 是 胜任 的 ， 但 是 并 不 是 特别 突出 。 
它 完成 基本 的 优化 ， 但 是 它 不 会 对 程序 进行 更 加 “有 进取 心 的 ”编译 器 所 做 的 那 种 激进 变 
换 。 因 此 ， 使 用 GCC 的 程序 员 必 须 花费 更 多 的 精力 ， 以 一 种 简化 编译 器 生成 高 效 代码 的 
任务 的 方式 来 编写 程序 。 


5.2 表示 程序 性 能 

我 们 引入 度量 标准 每 元 素 的 周期 数 (Cycles Per Element，CPE) ， 作 为 一 种 表示 程序 性 
能 并 指导 我 们 改进 代码 的 方法 。CPE 这 种 度量 标准 帮助 我 们 在 更 细节 的 级 别 上 理解 迭代 程 
序 的 循环 性 能 。 这 样 的 度量 标准 对 执行 重复 计算 的 程序 来 说 是 很 适当 的 ， 例 如 处 理 图 像 中 
的 像素 ， 或 是 计算 矩阵 乘积 中 的 元 素 。 

处 理 器 活动 的 顺序 是 由 时 钟 控制 的 ， 时 钟 提供 了 某 个 频率 的 规律 信号 ， 通 常用 千 光 赫 
区 (GHz)， 即 十 亿 周 期 每 秒 来 表示 。 例 如 ， 当 表明 一 个 系统 有 “4GHz” 处 理 器 ， 这 表示 
处 理 器 时 钟 运行 频率 为 每 秒 4X10" 个 周期 。 每 个 时 钟 周 期 的 时 间 是 时 钟 频 率 的 倒数 。 通 常 
是 以 纳 秒 Cnanosecond，1 纳 秒 等 于 10-" 秒 ) 或 皮 秒 (picosecond，1 皮 秒 等 于 10-2 秒 ) 为 单 
位 的 。 例 如 ， 一 个 4GHz 的 时 钟 其 周期 为 0. 25 纳 秒 ， 或 者 250 皮 秒 。 从 程序 员 的 角度 来 
看 ， 用 时 钟 周期 来 表示 度量 标准 要 比 用 纳 秒 或 皮 秒 来 表示 有 帮助 得 多 。 用 时 钟 周期 来 表 
示 ， 度 量 值 表示 的 是 执行 了 多 少 条 指令 ， 而 不 是 时 钟 运行 得 有 多 人 快 。 

许多 过 程 含 有 在 一 组 元 素 上 和 迭代 的 循环 。 例 如 ， 图 5-1 中 的 函数 psuml 和 psum2 计算 
的 都 是 一 个 长 度 为 2” 的 向 量 的 前 置 和 (prefix sum)。 对 于 向 量 2Z=(ao，w，…，a， ii)， 前 
置 和 P= (po, pi, “"*， pa-1) 定 义 为 
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/* Compute prefix sum of vector a */ 
void psumi(float a[], float p[], long 7n) 
{ 

long i; 

p[0] = a[0]; 

for (i = 1; i < n; i++) 

p[i] = p[i-1] + a[i]; 

} 


oNOoO Wm AAWwN 一 


Ee 
© 


void psum2(float a[], float p[], long D) 
{ 


i 
nh 


long i; 
p[0] = a[0] ; 
for (i = 1; i < n-l; i+=2) { 
float mid_val = p[i-1] + a[i]; 
p[i] = mid_val; 
p[i+1] mid_val + a[i+1]; 
} 
/* For even n, finish remaining element */ 
证 (i mn) 
p[li] = p[i-1] + a[i]; 


12 
13 
14 
15 
16 
到 
18 
让 





图 5-1 前 置 和 函数 。 这 些 函 数 提供 了 我 们 如 何 表示 程序 性 能 的 示例 


(5. 1) 


函数 psuml 每 次 迭代 计算 结果 向 量 的 一 个 元 素 。 第 二 个 函数 使 用 循环 展开 (loop un- 
rolling) 的 技术 ， 每 次 迭代 计算 两 个 元 素 。 本 章 后 面 我 们 会 探讨 循环 展开 的 好 处 。( 关 于 分 


析 和 优化 前 置 和 计算 的 内 容 请 参见 练习 题 5. 11、5. 12 和 家 庭 作 业 5. 19。) 


这 样 一 个 过 程 所 需要 的 时 间 可 以 用 一 个 常数 加 上 一 个 与 被 处 理 元 素 个 数 成 正比 的 因子 
来 描述 。 例 如 ， 图 5-2 是 这 两 个 函数 需要 的 周期 数 关 于 ?的 取 值 范围 图 。 使 用 最 小 二 乘 拟 





psuml 
Slope = 9.0 
psum2 
Slope = 6.0 


0 20 40 60 80 10 120 140 160 180 200 
元 素 
图 5-2 前 置 和 函数 的 性 能 。 两 条 线 的 斜率 表明 每 元 素 的 周期 数 (CPE) 的 值 
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合 (least squares fit) ， 我 们 发 现 ，psuml 和 psum2 的 运行 时 间 ( 用 时 钟 周 期 为 单位 ) 分 别 近 
似 于 等 式 368 十 9. 0n 和 368 十 6. 0n。 这 两 个 等 式 表 明 对 代码 计时 和 初始 化 过 程 、 准 备 循环 
以 及 完成 过 程 的 开销 为 368 个 周期 加 上 每 个 元 素 6.0 或 9.0 周期 的 线性 因子 。 对 于 较 大 的 
n 的 值 (比如 说 大 于 200)， 运 行 时 间 就 会 主要 由 线性 因子 来 决定 。 这 些 项 中 的 系数 称 为 每 
元 素 的 周期 数 (简称 CPE) 的 有 效 值 。 注 意 ， 我 们 更 愿意 用 每 个 元 素 的 周期 数 而 不 是 每 次 循环 
的 周期 数 来 度量 ， 这 是 因为 像 循环 展开 这 样 的 技术 使 得 我 们 能 够 用 较 少 的 循环 完成 计算 ， 而 
我 们 最 终 关心 的 是 ， 对 于 给 定 的 向 量 长 度 ， 程 序 运行 的 速度 如 何 。 我 们 将 精力 集中 在 减 小 计 
算 的 CPE 上。 根据 这 种 度量 标准 ，psum2 的 CPE 为 6.0， 优 于 CPE 为 9. 0 的 psuml。 


什么 是 最 小 二 乘 拟 合 
对 于 一 个 数据 点 (zl，y)，…，(z，yn) 的 集合 ， 我 们 常常 试图 画 一 条 线 ， 它 能 最 
接近 于 这 些 数据 代表 的 一 了 趋势 。 使 用 最 小 二 乘 拟 合 ， 寻 找 一 条 形 如 y 一 mizZ 十 的 线 ， 
使 得 下 面 这 个 误差 度量 最 小 : 
ECm,b) = > (azi 十 已 一 区 7 


i=1,n 


将 lm，5) 分 别 对 m 和 6b 求 导 ， 把 两 个 导数 函数 设置 为 0， 进 行 推导 就 能 得 出 计算 m 和 
6b 的 算法 。 


记 议 练习 题 5.2 在 本 章 后 面 ， 我 们 会 从 一 个 函数 开始 ， 生 成 许多 不 同 的 变种 ， 这 些 变 种 
” ”保持 函数 的 行为 ， 又 具有 不 同 的 性 能 特性 。 对 于 其 中 三 个 变种 ， 我 们 发 现 运行 时 间 
(以 时 钟 周期 为 单位 ) 可 以 用 下 面 的 函数 近似 地 估计 ; 
版 本 1: 60 十 35n 
版 本 2; 136 十 4n 
版 本 3: 157 十 1. 25n 
每 个 版 本 在 n 取 什么 值 时 是 三 个 版 本 中 最 快 的 ? 记 住 ,n 总 是 整数 。 


5.3 程序 示例 


为 了 说 明 一 个 抽象 的 程序 是 如 何 被 系统 一 。 0 
地 转换 成 更 有 效 的 代码 的 ， 我 们 将 使 用 一 个 2 有 


基于 图 5-3 所 示 向 量 数据 结构 的 运行 示例 。 向 。 图， 。 训 各 如 质数 据 类 澳 、 向 旺 册 类 信 和 
1 量 由 两 个 内 存 块 表示 : 头 部 和 数据 数组 。 头 加 上 指定 长 度 的 数组 来 表示 和 
部 是 一 个 声明 如 下 的 结构 : 





code/opt/vec.h 
1 /* Create abstract data type for vector */ 
2 typedef struct { 
| long len; 
4 data_t *data; 
5 } vec_rec, *vec_ptr; 
code/opt/vec.h 


这 个 声明 用 data t 来 表示 基本 元 素 的 数据 类 型 。 在 测试 中 ， 我 们 度量 代码 对 于 整数 (C 语 
言 的 int 和 Long) 和 浮 点 数 (C 语言 的 float 和 double) 数 据 的 性 能 。 为 此 ， 我们 会 分 别 
为 不 同 的 类 型 声明 编译 和 运行 程序 ， 就 像 下面 这 个 例子 对 数据 类 型 1ong 一 样 : 
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typedef long data_t; 


我 们 还 会 分 配 一 个 len 个 data 七 类 型 对 象 的 数组 ， 来 存放 实际 的 向 量 元 素 。 

图 5-4 给 出 的 是 一 些 生成 向 量 、 访 问 向 量 元 素 以 及 确定 向 量 长 度 的 基本 过 程 。 一 个 值 
得 注意 的 重要 特性 是 向 量 访问 程序 get_vec element， 它 会 对 每 个 向 量 引 用 进行 边界 检 
查 。 这 段 代 码 类 似 于 许多 其 他 语言 (包括 Java) 所 使 用 的 数组 表示 法 。 边 界 检查 降低 了 程序 


出 错 的 机 会 


， 但 是 它 也 会 减缓 程序 的 执行 。 
code/opt/vec.c 


/* Create vector of specified length */ 
vec_ptr new_vec(long len) 


‘ 
/* Allocate header structure */ 
vec_ptr result = (vec_ptr) malloc(sizeof (vec_rec)); 
data_t *data = NULL,; 
if (!result) 
return NULL; /* Couldn't allocate storage */ 
result->len = len; 
/* Allocate array */ 
if (len > 0) { 
data = (data_t *)calloc(len, sizeof (data_t)); 
if (!data) { 
free((void *) result); 
return NULL; /* Couldn't allocate storage */ 
} 
} 
/* Data will either be NULL or allocated array */ 
result->data = data; 
return result; 
由 
/* 


* Retrieve vector element and store at dest. 

* Return 0 (out of bounds) or 1 (successful) 

*/ 

int get_vec_element(vec_ptr v, long index, data_t *dest) 


a 


if (index < 0 || index >= v->len) 
return 0; 

*dest = v->data[index]; 

return 1; 


/* Return length of vector */ 
long vec_length(vec._ptr v) 
1 


return v->len; 


code/opt/vec.c 


图 5-4 向 量 抽象 数据 类 型 的 实现 。 在 实际 程序 中 ， 数 据 类 型 data 七 被 声明 为 
int、1long、float 或 double 
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作为 一 个 优化 示例 ， 考 虑 图 5-5 中 所 示 的 代码 ， 它 使 用 某 种 运算 ， 将 一 个 向 量 中 所 有 
的 元 素 合并 成 一 个 值 。 通 过 使 用 编译 时 常数 IDENT 和 OP 的 不 同 定义 ， 这 段 代 码 可 以 重 
编译 成 对 数据 执行 不 同 的 运算 。 特 别 地 ， 使 用 声明 : 

#define IDENT 0 

#define OP + 


它 对 向 量 的 元 素 求 和 。 使 用 声明 : 
#define IDENT 1 
#define OP * 


它 计算 的 是 向 量 元 素 的 乘积 。 


/* Implementation with maximum use of data abstraction */ 
void combinei(vec_ptr v, data_t *dest) 
本 


long i; 


*dest = IDENT ; 

for (i = 0; i < vec_length(v); i++) { 
data_t val; 
get_vec_element(v, i, &val); 
*dest = *dest OP val; 


1 
2 
3 
4 
5 
6 
7 
8 





图 5-5 合并 运算 的 初始 实现 。 使 用 基本 元 素 IDENT 和 合并 运算 OP 的 不 同 声明 ， 
我 们 可 以 测量 该 函数 对 不 同 运算 的 性 能 
在 我 们 的 讲述 中 ， 我 们 会 对 这 有 段 代码 进行 一 系列 的 变化 ， 写 出 这 个 合并 函数 的 不 同 版 本 。 
为 了 评估 性 能 变化 ， 我 们 会 在 一 个 具有 Intel Core i7 Haswell 处 理 器 的 机 器 上 测量 这 些 函 数 的 
CPE 性 能 ， 这 个 机 器 称 为 参考 机 。3. 1 节 中 给 出 了 一 些 有 关 这 个 处 理 器 的 特性 。 这 些 测量 值 刻 
画 的 是 程序 在 某 个 特定 的 机 器 上 的 性 能 ， 所 以 在 其 他 机 器 和 编译 器 组 合 中 不 保证 有 同等 的 性 能 。 
不 过 ， 我 们 把 这 些 结果 与 许多 不 同 编译 器 /处 理 器 组 合 上 的 结果 做 了 比较 ， 发 现 也 非常 相似 。 
我 们 会 进行 一 组 变换 ， 发 现 有 很 多 只 能 带 来 很 小 的 性 能 提高 ， 而 其 他 的 能 带 来 更 巨大 
的 效果 。 确 定 该 使 用 哪些 变换 组 合 确实 是 编写 快速 代码 的 “魔术 (black art)”。 有 些 不 能 
提供 可 测量 的 好 处 的 组 合 确实 是 无 效 的， 然而 有 些 组 合 是 很 重要 的 ， 它 们 使 编译 器 能 够 进 
一 步 优化 。 根 据 我 们 的 经 验 ， 最 好 的 方法 是 实验 加 上 分 析 : 反复 地 尝试 不 同 的 方法 ， 进 行 
测量 ， 并 检查 汇编 代码 表示 以 确定 底层 的 性 能 瓶颈 。 
作为 一 个 起 点 ， 下 表 给 出 的 是 combinel 的 CPE 度量 值 ， 它 运行 在 我 们 的 参考 机 上 ， 
尝试 了 操作 (加 法 或 乘法 ) 和 数据 类 型 (长 整数 和 双 精 度 浮 点 数 ) 的 不 同 组 合 。 使 用 多 个 不 同 
的 程序 ， 我 们 的 实验 显示 32 位 整数 操作 和 64 位 整数 操作 有 相同 的 性 能 ， 除 了 涉及 除法 操 
作 的 代码 之 外 。 同 样 ， 对 于 操作 单 精度 和 双 精 度 浮 点 数据 的 程序 ， 其 性 能 也 是 相同 的 。 因 
此 在 表 中 ， 我 们 将 只 给 出 整数 数据 和 浮 点 数据 各 自 的 结果 。 


整数 浮 点 数 


























可 以 看 到 测量 值 有 些 不 太 精 确 。 对 于 整数 求 和 的 CPE 数 更 像 是 23. 00， 而 不 是 
22. 68; 对 于 整数 乘积 的 CPE 数 则 是 20. 0 而 非 20. 02。 我 们 不 会 “捏造 ”数据 让 它们 看 起 
来 好 看 一 点 儿 ， 只 是 给 出 了 实际 获得 的 测量 值 。 有 很 多 因素 会 使 得 可 靠 地 测量 某 段 代码 序 
列 需 要 的 精确 周期 数 这 个 任务 变 得 复杂 。 检 查 这些 数 字 时 ， 在 头脑 里 把 结果 向 上 或 者 向 下 
取 整 几 百 分 之 一 个 时 钟 周期 会 很 有 帮助 。 

未 经 优化 的 代码 是 从 C 语言 代码 到 机 器 代码 的 直接 翻译 ， 通 常 效率 明显 较 低 。 简 单 地 
使 用 命令 行 选项 “-01”， ti 正如 可 以 看 到 的 ， 程 序 员 不 需要 做 什 
么 ， 就 会 显著 地 提高 程序 性 能 少 使 用 这 个 级 别 优化 的 
习惯 是 很 好 的 。 ee 结果 ) 在 剩 下 的 测试 中 ， i 
-01 和 -02 级 别 的 优化 来 生成 和 测量 程序 。 


5.4 消除 循环 的 低 效率 


可 以 观察 到 ， 过 程 combinel 调用 函数 vec length 作为 for 循环 的 测试 条 件 ， 如 
图 5-5 所 示 。 回 想 关 于 如 何 将 含有 循环 的 代码 翻译 成 机 器 级 程序 的 讨论 ( 见 3. 6.7 节 )， 每 
次 循环 迭代 时 都 必须 对 测试 条 件 求 值 。 另 一 方面 ， 癌 量 的 长 度 并 不 会 随 着 循环 的 进行 而 长 
变 。 因 此 ， 只 需 计 算 一 次 向 量 的 长 度 ， 然 后 在 我 们 的 测试 条 件 中 都 使 用 这 个 值 。 

图 5-6 是 一 个 修改 了 的 版 本 ， 称 为 combine2， 它 在 开始 时 调用 vec_length， 并 将 结 
果 赋 值 给 局 部 变量 length。 对 于 某 些 数 据 类 型 和 操作 ， 这 个 变换 明显 地 影响 了 某 些 数据 ， 
类 型 和 操作 的 整体 性 能 ， 对 于 其 他 的 则 只 有 很 小 甚至 没有 影响 。 无 论 是 哪 种 情况 ， 都 需要 
这 种 变换 来 消除 这 个 低 效率 ， 这 有 可 能 成 为 尝试 进一步 优化 时 的 瓶颈 。 





1 /* Move call to vec_length out of loop */ 
2 void combine2(vec_ptr v, data_t *dest) 
4 long i; 

5 long length = vec_length(v); 

6 

学 *dest = IDENT; 

8 for (i = 0; i < length; i++) +{ 

3 data_t val; 

10 get_vec_element(v, i, &val); 
11 *dest = *dest OP val; 

拉 } 

双 ”上 








图 5-6 改进 循环 测试 的 效率 。 通 过 把 对 vec_length 的 调用 移出 循环 测 
试 ， 我 们 不 再 需要 每 次 迭代 时 都 执行 这 个 函数 











整数 浮 点 数 
函数 方法 
十 关 i 


combinel 抽象 的 -01 10. 12 LO%. 2 | 10. 17 11.14 
combine2 移动 vec_length TA 9. 03 9.02 lia08 
这 个 优化 是 一 类 常见 的 优化 的 一 个 例子 ， 称 为 代码 移动 (code motion) 。 这 类 优化 包括 


识别 要 执行 多 次 (例如 在 循环 里 ) 但 是 计算 结果 不 会 改变 的 计算 。 因 而 可 以 将 计算 移动 到 代 
码 前 面 不 会 被 多 次 求 值 的 部 分 。 在 本 例 中 ， 我 们 将 对 vec_length 的 调用 从 循环 内 部 移动 
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到 循环 的 前 面 。 

优化 编译 器 会 试 着 进行 代码 移动 。 不 幸 的 是 ， 就 像 前 面 讨论 过 的 那样 ， 对 于 会 改变 在 
哪里 调用 函数 或 调用 多 少 次 的 变换 ， 编 译 器 通常 会 非常 小 心 。 它 们 不 能 可 靠 地 发 现 一 个 浮 
数 是 否 会 有 副作用 ， 因 而 假设 函数 会 有 副作用 。 例 如 ， 如 果 vec_length 有 某 种 副作用 ， 
那么 combinel 和 combine2 可 能 就 会 有 不 同 的 行为 。 为 了 改进 代码 ， 程 序 员 必 须 经 常 帮 
助 编译 器 显 式 地 完成 代码 的 移动 。 

举 一 个 combinel 中 看 到 的 循环 低 效率 的 极端 例子 ， 考 虑 图 5-7 中 所 示 的 过 程 low- 
erl。 这 个 过 程 模仿 几 个 学 生 的 函数 设计 ， 他 们 的 函数 是 作为 一 个 网 络 编程 项 目的 一 部 分 
交 上 来 的 。 这 个 过 程 的 目的 是 将 一 个 字符 串 中 所 有 大 写字 母 转换 成 小 写字 母 。 这 个 大 小 写 
转换 涉及 将 “A” 到 “z” 范 围 内 的 字符 转换 成 “a” 到 “z” 范 围 内 的 字符 。 


/* Convert string to lowercase: slow */ 
void loweri(char *s) 
{ 


long i; 


for (i = 0; i < strlen(s); i++) 
if (s[i] >= 'A' && s[i] <= '2') 
SLi] c= CA' = "a 
~ 


md 
O00PNOoO AAWwWNND 一 


bh 
等 多 


/* Convert string to lowercase: faster */ 
void lower2(char *s) 
{ 

long i; 

long len = strlen(s); 


for (i = 0; i < len; i++) 
if (s[il] >= 'A' && s[i] <=: "Z') 
s[i] -= ('A' - 'a'); 


要 
访 
14 
15 
16 
17 
18 
19 


Db 
© 


} 


DD 
1 


/* Sample implementation of library function strlen */ 
/* Compute length of string */ 
size_t strlen(const char *s) 


t 


DNDNDDND 
Om 上 人 


long length = 0; 
while (*s != '\0') { 
S++; 
length++; 


DD ID 
ON 


} 


return length,; 





图 5-7 小 写字 母 转 换 函 数 。 两 个 过 程 的 性 能 差别 很 大 
对 库 函 数 strlen 的 调用 是 lower1 的 循环 测试 的 一 部 分 。 虽 然 strlen 通常 是 用 特殊 
的 x86 字符 串 处 理 指令 来 实现 的 ， 但 是 它 的 整体 执行 也 类 似 于 图 5-7 中 给 出 的 这 个 简单 版 
本 。 因 为 C 语 言 中 的 字符 串 是 以 null 结尾 的 字符 序列 ，strlen 必须 一 步 一 步 地 检查 这 


352 ”第 一 记分 ”程序 结构 和 执行 








个 序列 ， 直 到 遇 到 null 字符 。 对 于 一 个 长 度 为 的 字符 串 ，strlen 所 用 的 时 间 与 n 成 正 
比 。 因 为 对 lowerl 的 n 次 迭代 的 每 一 次 都 会 调用 strlen， 所 以 lowerl 的 整体 运行 时 间 
是 字符 串 长 度 的 二 次 项 ， 正 比 于 痉 。 

如 图 5-8 所 示 ( 使 用 strlen 的 库 版 本 )， 这 个 函数 对 各 种 长 度 的 字符 串 的 实际 测量 值 
证 实 了 上 述 分 析 。1lowerl 的 运行 时 间 曲 线 图 随 着 字符 串 长 度 的 增加 上 升 得 很 陡峭 (图 5-8a)。 
图 5-8b 展示 了 7 个 不 同 长 度 字符 串 的 运行 时 间 ( 与 曲线 图 中 所 示 的 有 所 不 同 )， 每 个 长 度 
都 是 2 的 寡 。 可 以 观察 到 ， 对 于 lower1 来 说 ， 字 符 串 长 度 每 增加 一 倍 ， 运 行 时 间 都 会 变 
为 原来 的 4 倍 。 这 很 明显 地 表明 运行 时 间 是 二 次 的 。 对 于 一 个 长 度 为 1 048 576 的 字符 串 
来 说 ，1Lower1l 需要 超过 17 分 钟 的 CPU 时 间 。 


250 
一 一 一 一 一 


100 000 200 000 300 000 400 000 500 000 
字符 串 长 度 
a) 
字符 串 长 度 
16 384 32 768 65 536 131 072 262 144 524 288 1 048 576 










lowerl 0.26 1.03 4.10 16.41 65.62 262.48 1 049.89 
lower2 0.0000 0.0001 0.0001 0.0003 0.0005 0.0010 0.0020 


b) 


图 5-8 ”小 写字 母 转 换 函 数 的 性 能 比较 。 由 于 循环 结构 的 效率 比较 低 ， 初 始 代码 lower1l 
的 运行 时 间 是 二 次 项 的 。 修 改过 的 代码 lower2 的 运行 时 间 是 线性 的 

除了 把 对 strlen 的 调用 移出 了 循环 以 外 ， 图 5-7 中 所 示 的 lower2 与 lowerl 是 一 样 的 。 
做 了 这 样 的 变化 之 后 ， 性 能 有 了 显著 改善 。 对 于 一 个 长 度 为 1048 576 的 字符 串 ， 这 个 函数 只 
需要 2. 0 毫秒 一 一 比 Lowerl 快 了 500 000 多 倍 。 字 符 串 长 度 每 增加 一 倍 ， 运 行 时 间 也 会 增加 
一 倍 一 一 很 显然 运行 时 间 是 线性 的 。 对 于 更 长 的 字符 串 ， 运 行 时 间 的 改进 会 更 大 。 

在 理想 的 世界 里 ， 编 译 器 会 认 出 循环 测试 中 对 strlen 的 每 次 调用 都 会 返回 相同 的 结 
果 ， 因 此 应 该 能 够 把 这 个 调用 移出 循环 。 这 需要 非常 成 熟 完善 的 分 析 ， 因 为 strlen 会 检 
查 字 符 串 的 元 素 ， 而 随 着 1owerl 的 进行 ， 这 些 值 会 改变 。 编 译 器 需要 探查 ， 即 使 字符 串 
中 的 字符 发 生 了 改变 , 但 是 没有 字符 会 从 非 零 变 为 零 ， 或 是 反 过 来 ， 从 零 变 为 非 零 。 即 使 
是 使 用 内 联 函 数 ， 这 样 的 分 析 也 远 远 超出 了 最 成 熟 完善 的 编译 器 的 能 力 ， 所 以 程序 员 必 须 
自己 进行 这 样 的 变换 。 

这 个 示例 说 明了 编程 时 一 个 常见 的 问题 ， 一 个 看 上 去 无 足 轻重 的 代码 片断 有 隐藏 的 渐 
近 低 效率 (asymptotic inefficiency) 。 人 们 可 不 希望 一 个 小 写字 母 转 换 函 数 成 为 程序 性 能 的 
限制 因素 。 通 常 ， 会 在 小 数据 集 上 测试 和 分 析 程 序 ， 对 此 ，lower1 的 性 能 是 足够 的 。 不 
过 ， 当 程序 最 终 部 署 好 以 后 ， 过 程 完全 可 能 被 应 用 到 一 个 有 100 万 个 字符 的 串 上 。 突 然 ， 
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这 段 无 危险 的 代码 变 成 了 一 个 主要 的 性 能 瓶颈 。 相 比较 而 言 ，lower2 的 性 能 对 于 任意 长 
度 的 字符 串 来 说 都 是 足够 的 。 大 型 编程 项 目 中 出 现 这 样 问题 的 故事 比比 丝 是 。 一 个 有 经 验 
的 程序 员工 作 的 一 部 分 就 是 避免 引入 这 样 的 渐 近 低 效率 。 
EN 练习 题 5.3 考虑 下 面 的 函数 : 

long min(long x, long y) { return x <y?x:y;} 

long max(long x, long y) { return x <y?y: x; 


void incr(long *xp, long v) { *xp += Vi +} 
long square(long x) { return x*x; } 


下 面 三 个 代码 片断 调用 这 些 函 数 : 
A. for (i = min(x, y); i < max(x, y); incr(&i, 1)) 
t += Square(i) ; 








B. for (i = max(x, y) - 1; i >= min(x, y); incr(&i, -1)) 
t += square(i); 
C. long low = min(x, y); 
long high = max(x, y); 


for (EE = low tL < hilehs lher(gi, 1 
t += square(i); 
假设 x 等 于 10， 而 y 等 于 100。 填 写 下 表 ， 指 出 在 代码 片断 A~C 中 4 个 函数 每 个 被 
调用 的 次 数 : 





5.5 减少 过 程 调用 

像 我 们 看 到 过 的 那样 ， 过 程 调用 会 带 来 开销 ， 而 且 妨 碍 大 多 数 形 式 的 程序 优化 。 从 
combine2 的 代码 ( 见 图 5-6) 中 我 们 可 以 看 出 ， 每 次 循环 迭代 都 会 调用 get_vec_element 
来 获取 下 一 个 向 量 元 素 。 对 每 个 向 量 引 用 ， 这 个 函数 要 把 向 量 索 引 i 与 循环 边界 做 比较 ， 
很 明显 会 造成 低 效率 。 在 处 理 任意 的 数组 访问 时 ， 边 界 检查 可 能 是 个 很 有 用 的 特性 ， 但 是 
对 combine2 代码 的 简单 分 析 表 明 所 有 的 引用 都 是 合法 的 。 

作为 替代 ， 假 设 为 我 们 的 抽象 数据 类 型 增加 一 个 函数 get_vec_start。 这 个 函数 返回 
数组 的 起 始 地 址 ， 如 图 5-9 所 示 。 然 后 就 能 写 出 此 图 中 combine3 所 示 的 过 程 ， 其 内 循环 
里 没有 函数 调用 。 它 没有 用 函数 调用 来 获取 每 个 向 量 元 素 ， 而 是 直接 访问 数组 。 一 个 纯粹 
主义 者 可 能 会 说 这 种 变换 严重 损害 了 程序 的 模块 性 。 原 则 上 来 说 ， 向 量 抽象 数据 类 型 的 使 
用 者 甚至 不 应 该 需要 知道 向 量 的 内 容 是 作为 数组 来 存储 的 ， 而 不 是 作为 诸如 链表 之 类 的 某 
种 其 他 数据 结构 来 存储 的 。 比 较 实 际 的 程序 员 会 争论 说 这 种 变换 是 获得 高 性 能 结果 的 必要 
步骤 。 











整数 浮 点 数 
函数 方法 
| 十 关 十 关 
combine2 移动 vec_length 7.02 9. 03 9. 02 11.03 
combine3 直接 数据 访问 i la 9.02 9. 02 11. 03 
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code/opt/vec.c 
1 data t *get_vec_start(vec_ptr v) 
FE 
3 return v->data; 
4 了】 
code/opt/vec.c 
1 /* Direct access to vector data */ 
2 void combine3(vec_ptr v, data_t *dest) 
3 苹 
4 long i; 
5 long length = vec_Length(v) ; 
6 data t *data = get_vec_start(v); 
7 
8 *dest = IDENT; 
9 for (i = 0; i < length; i++) { 
10 *dest = *dest OP data[i]; 
11 上 
这 凸 


图 5-9 消除 循环 中 的 函数 调用 。 结 果 代码 没有 显示 性 能 提升 ， 但 是 它 有 其 他 的 优化 


令 人 吃惊 的 是 ， 性 能 没有 明显 的 提升 。 事 实 上 ， 整 数 求 和 的 性 能 还 略 有 下 降 。 显 然 ， 内 
循环 中 的 其 他 操作 形成 了 瓶颈 ， 限 制 性 能 超过 调用 get_vec element。 我 们 还 会 再 回 到 这 个 
函数 ( 见 5. 11. 2 节 )， 看 看 为 什么 combine2 中 反复 的 边界 检查 不 会 让 性 能 更 差 。 而 现在 , 我 
们 可 以 将 这 个 转换 视 为 一 系列 步 又 中 的 一 步 ， 这 些 步骤 将 最 终 产生 显著 的 性 能 提升 。 


5.6 消除 不 必要 的 内 存 引用 

combine3 的 代码 将 合并 运算 计算 的 值 累 积 在 指针 dest 指定 的 位 置 。 通 过 检查 编译 
出 来 的 为 内 循环 产生 的 汇编 代码 ， 可 以 看 出 这 个 属性 。 在 此 我 们 给 出 数据 类 型 为 double， 
合并 运算 为 乘法 的 x86-64 代码 : 


Tnner loop of combine3. data_t = double, OP = * 
dest in Yrbx, datat+i iD Yrdx, datatlength in %rax 


1 slTs loop: 

> vmovsd (%rbx), “xmmO Read product from dest 

3 vmulsd (%rdx), %xmmO0, %xmmO Multiply product by data[i] 
4 vmovsd ‘%xmm0O, (%rbx) Store product at dest 

5 addq $8, %rdx Increment datati 

6 cmpq %rax, %rdx Compare to datatlength 

7 jne . 工 17 If !=, goto loop 


在 这 段 循环 代码 中 ， 我 们 看 到 ， 指 针 gest 的 地 址 存放 在 寄存 器 srbx 中 ， 它 还 改变 了 
代码 ， 将 第 i 个 数据 元 素 的 指针 保存 在 寄存 器 $rdx 中 ， 注 释 中 显示 为 data+i。 每 次 适 
代 ， 这 个 指针 都 加 8。 循环 终止 操作 通过 比较 这 个 指针 与 保存 在 寄存 器 srax 中 的 数值 来 判 
断 。 我 们 可 以 看 到 每 次 迭代 时 ， 累 积 变量 的 数值 都 要 从 内 存 读 出 再 写 人 到 内 存 。 这 样 的 读 
写 很 浪费 ， 因 为 每 次 迄 代 开 始 时 从 dest 读 出 的 值 就 是 上 次 迭代 最 后 写 人 的 值 。 

我 们 能 够 消除 这 种 不 必要 的 内 存 读 写 ， 按 照 图 5-10 中 combine4 所 示 的 方式 重 写 代 
码 。 引 入 一 个 临时 变量 acc， 它 在 循环 中 用 来 累积 计算 出 来 的 值 。 只 有 在 循环 完成 之 后 结 ， 
果 才 存放 在 dest 中 。 正 如 下 面 的 汇编 代码 所 示 ， 编 译 器 现在 可 以 用 寄存 器 sxmmg0 来 保存 ， 
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累积 值 。 与 combine3 中 的 循环 相 比 ， 我 们 将 每 次 迭代 的 内 存 操作 从 两 次 读 和 一 次 写 减 少 
到 只 需要 一 次 读 。 

Tnner loop of combine4. data_t = double, OP = * 

acc iD Yxmm0, datati in Yrdx, datatlength in Yrax 


1 .L125: loop: 

2 vmulsd (%rdx), %xmmO0, %xmmO Multiply acc by data[i] 
3 addq $8, hrdx Increment data+i 

4 cmpq rax, hrdx Compare to datatlength 
5 jne -L265 If !=, goto loop 


/* Accumulate result in local variable */ 
void combine4(vec_ptr v, data_t *dest) 


{ 


long i; 
long length = vec_length(v); 
data_t *data = get_vec_start(v); 


data t acc = IDENT; 


for (i = 0; i < length; i++) { 
acc = acc OP data[i]; 


} 


*dest = acc; 





图 5-10 把 结果 累积 在 临时 变量 中 。 将 累积 值 存放 在 局 部 变量 acc( 累 积 器 (accumulator) 的 简写 ) 中 ， 
消除 了 每 次 循环 迭代 中 从 内 存 中 读 出 并 将 更 新 值 写 回 的 需要 


我 们 看 到 程序 性 能 有 了 显著 的 提高 ， 如 下 表 所 示 : 


育 数 方法 


combine3 直接 数据 访问 
combine4 累积 在 临时 变量 中 








所 有 的 时 间 改 进 范围 从 2.2X 到 5.7X， 整 数 加 法 情况 的 时 间 下 降 到 了 每 元 素 只 需 1. 27 个 
时 钟 周期 。 

可 能 又 有 人 会 认为 编译 器 应 该 能 够 自动 将 图 5-9 中 所 示 的 combine3 的 代码 转换 为 在 寄 
存 器 中 累积 那个 值 ， 就 像 图 5-10 中 所 示 的 combine4 的 代码 所 做 的 那样 。 然 而 实际 上 ， 由 于 
内 存 别名 使 用 ， 两 个 函数 可 能 会 有 不 同 的 行为 。 例 如 ， 考 虑 整数 数据 ， 运 算 为 乘法 ， 标 识 元 
素 为 1 的 情况 。 设 v=[2，3，5] 是 一 个 由 3 个 元 素 组 成 的 向 量 ， 考 虑 下 面 两 个 函数 调用 ， 


combine3(v, get_vec_start(v) + 2) ; 
combine4(v, get_vec_start(v) + 2) ; 


也 就 是 在 向 量 最 后 一 个 元 素 和 存放 结果 的 目标 之 间 创 建 一 个 别名 。 那 么 ， 这 两 个 函数 的 执 
行 如 下 : 


而 


combine3 [2, 3, 5] [2, 3, 1] [2, 3;.2] [2, 3, 6] [2, 3, 36] [2, 3, 36] 
combine4 [2, 3, 5] [2, 3, 5] 


芭 ; 坟 下 [25355] [2, 3, 30] 
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正如 前 面 讲 到 过 的 ，combine3 将 它 的 结果 累积 在 目标 位 置 中 ， 在 本 例 中 ， 目 标 位 置 
就 是 向 量 的 最 后 一 个 元 素 。 因 此 ， 这 个 值 首先 被 设置 为 1， 然 后 设 为 2.， 1 二 2， 然 后 设 为 
3。2 二 6。 最 后 一 次 迭代 中 ， 这 个 值 会 乘 以 它 自己 ， 得 到 最 后 结果 36。 对 于 combine4 的 
情况 来 说 ， 直 到 最 后 向 量 都 保持 不 变 ， 结 束 之 前 ， 最 后 一 个 元 素 会 被 设置 为 计算 出 来 的 值 
1。2。3。5 王 30。 

当然 ， 我 们 说 明 combine3 和 combine4 之 间 差 别 的 例子 是 人 为 设计 的 。 有 人 会 说 
combine4 的 行为 更 加 符合 也 数 描述 的 意图 。 不 幸 的 是 ， 编 译 器 不 能 判断 函数 会 在 什么 情 
况 下 被 调用 ， 以 及 程序 员 的 本 意 可 能 是 什么 。 取 而 代 之 ， 在 编译 combine3 时 ， 保 守 的 方 
法 是 不 断 地 读 和 写 内 存 ， 即 使 这 样 做 效率 不 太 高 。 
练习 题 5.4 当 用 带 命令 行 选项 “-02” 的 GCC 来 编译 combine3 时 ， 得 到 的 代码 

CPE 性 能 远 好 于 使 用 -O01 时 的 : 





方法 








combine3 用 -ol 编译 
combine3 用 -02 编译 
combined 累积 在 临时 变量 中 





由 此 得 到 的 性 能 与 combine4 相当 ， 不 过 对 于 整数 求 和 的 情况 除外 ， 虽 然 性 能 已 
经 得 到 了 显著 的 提高 ， 但 还 是 低 于 combine4。 在 检查 编译 器 产生 的 汇编 代码 时 ， 我 
们 发 现 对 内 循环 的 一 个 有 趣 的 变化 : 

Tnner loop of combine3. data_t = double, OP = *. Compiled -02 

dest iD %rbx, datat+i iD Xrdx, datatlength in %rax 

Accumulated product im %xmmO 


1 .L22: loop: 

2 vmulsd (Xrdx), %xmmO0, %hxmmO Multiply product by data[i] 
3 addq $8, %rdx Increment datati 

cmpq Lraxs Wrdx Compare to datatlength 

5 vmovsd %xmm0, (%rbx) Store product at dest 

6 jne .L122 If !=, goto loop 


把 上 面 的 代码 与 用 优化 等 级 1 产生 的 代码 进行 比较 : 
Tnner loop of combine3. data_t = double, OP = *. Compiled -01 
dest iD Yrbx, datati iD Yrdx, datatlength iD %rax 


1 sab: loop: 
2 vmovsd (%rbx), %xmmO Read product from dest 
3 vmulsd (%rdx), %xmmO0, %xmmO Multiply product by data[i] 
4 vmovsd %xmm0, (%rbx) Store product at dest 
5 addq $8, %rdx Increment data+i 
cmpq %rax, hrdx Compare to datatlength 
x jne aL1i7 If !=, goto loop 


我 们 看 到 ， 除 了 指令 顺序 有 些 不 同 ， 唯 一 的 区 别 就 是 使 用 更 优化 的 版 本 不 含有 

vmovsd 指令 ， 它 实现 的 是 从 dest 指定 的 位 置 读数 据 ( 第 2 行 )。 

A. 寄存 器 sxmmg0 的 角色 在 两 个 循环 中 有 什么 不 同 ? 

B. 这 个 更 优化 的 版 本 患 实地 实现 了 combine3 的 C 语 言 代码 吗 ( 包 括 在 dest 和 向 量 
数据 之 间 使 用 内 存 别 名 的 时 候 )? 
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C. 解释 为 什么 这 个 优化 保持 了 期 望 的 行为 ， 或 者 给 出 一 个 例子 说 明 它 产生 了 与 使 用 
较 少 优化 的 代码 不 同 的 结果 。 
使 用 了 这 最 后 的 变换 ， 至 此 ， 对 于 每 个 元 素 的 计算 ， 都 只 需要 1. 25 一 5 个 时 钟 周期 。 
比 起 最 开始 采用 优化 时 的 9 一 11 个 周期 ， 这 是 相当 大 的 提高 了 。 现 在 我 们 想 看 看 是 什么 因 
素 在 制约 着 代码 的 性 能 ， 以 及 可 以 如 何 进 一 步 提高 。 


5.7 理解 现代 处 理 器 


到 目前 为 止 ， 我 们 运用 的 优化 都 不 依赖 于 目标 机 器 的 任何 特性 。 这 些 优 化 只 是 简单 
地 降低 了 过 程 调用 的 开销 ， 以 及 消除 了 一 些 重 大 的 “妨碍 优化 的 因素 ”， 这 些 因素 会 给 
优化 编译 器 造成 困难 。 随 着 试图 进一步 提高 性 能 ， 必 须 考 虑 利用 处 理 器 微 体系 结构 的 优 
化 ， 也 就 是 处 理 器 用 来 执行 指令 的 底层 系统 设计 。 要 想 充 分 提高 性 能 ， 需 要 仔细 分 析 程 
序 ， 同 时 代码 的 生成 也 要 针对 目标 处 理 器 进行 调整 。 尽 管 如 此 ， 我 们 还 是 能 够 运用 一 些 
基本 的 优化 ， 在 很 大 一 类 处 理 器 上 产生 整体 的 性 能 提高 。 我 们 在 这 里 公布 的 详细 性 能 结 
果 ， 对 其 他 机 器 不 一 定 有 同样 的 效果 ， 但 是 操作 和 优化 的 通用 原则 对 各 种 各 样 的 机 器 都 
适用 。 

为 了 理解 改进 性 能 的 方法 ， 我 们 需要 理解 现代 处 理 器 的 微 体 系 结构 。 由 于 大 量 的 唱 
体 管 可 以 被 集成 到 一 块 芯片 上 ， 现 代 微 处 理 器 采用 了 复杂 的 硬件 ， 试 图 使 程序 性 能 最 大 
化 。 带 来 的 一 个 后 果 就 是 处 理 器 的 实际 操作 与 通过 观察 机 器 级 程序 所 察觉 到 的 大 相 径 
庭 。 在 代码 级 上 ， 看 上 去 似乎 是 一 次 执行 一 条 指令 ， 每 条 指令 都 包括 从 寄存 器 或 内 存 取 
值 ， 执 行 一 个 操作 ， 并 把 结果 存 回 到 一 个 寄存 器 或 内 存 位 置 。 在 实际 的 处 理 器 中 ， 是 同时 
对 多 条 指令 求 值 的， 这 个 现象 称 为 指令 级 并 行 。 在 某 些 设计 中 ， 可 以 有 100 或 更 多 条 指令 
在 处 理 中 。 采 用 一 些 精细 的 机 制 来 确保 这 种 并 行 执行 的 行为 ， 正 好 能 获得 机 器 级 程序 要 求 
的 顺序 语义 模型 的 效果 。 现 代 微 处 理 器 取得 的 了 不 起 的 功绩 之 一 是 : 它们 采用 复杂 而 奇异 
的 微 处 理 器 结构 ， 其 中 ， 多 条 指令 可 以 并 行 地 执行 ， 同 时 又 呈现 出 一 种 简单 的 顺序 执行 指 
令 的 表象 。 

虽然 现代 微 处 理 器 的 详细 设计 超出 了 本 书 讲授 的 范围 ， 对 这 些微 处 理 器 运行 的 原则 有 
一 般 性 的 了 解 就 足够 能 够 理解 它们 如 何 实现 指令 级 并 行 。 我 们 会 发 现 两 种 下 界 描述 了 程序 
的 最 大 性 能 。 当 一 系列 操作 必须 按照 严格 顺序 执行 时 ， 就 会 遇 到 延迟 界限 (latency 
bound) ， 因 为 在 下 一 条 指令 开始 之 前 ， 这 条 指令 必须 结束 。 当 代码 中 的 数据 相关 限制 了 处 
理 避 利用 指令 级 并 行 的 能 力 时 ， 延 迟 界限 能 够 限制 程序 性 能 。 吞 吐 量 界 限 (throughput 
bound) 刻 画 了 处 理 器 功能 单元 的 原始 计算 能 力 。 这 个 界限 是 程序 性 能 的 终极 限制 。 


5.7.1 整体 操作 


图 5-11 是 现代 微 处 理 器 的 一 个 非常 简单 化 的 示意 图 。 我 们 假想 的 处 理 器 设计 是 不 太 
严格 地 基于 近期 的 Intel 处 理 器 的 结构 。 这 些 处 理 器 在 工业 界 称 为 超标 量 (sSuperscalar)， 
”意思 是 它 可 以 在 每 个 时 钟 周期 执行 多 个 操作 ， 而 且 是 乱 序 的 (out-of-order)， 意 思 就 是 指令 
执行 的 顺序 不 一 定 要 与 它们 在 机 器 级 程序 中 的 顺序 一 致 。 整 个 设计 有 两 个 主要 部 分 : 指令 
控制 单元 (Instruction Control Unit，ICU) 和 执行 单元 (Execution Unit，EU) 。 前 者 负责 
从 内 存 中 读 出 指令 序列 ， 并 根据 这 些 指令 序列 生成 一 组 针对 程序 数据 的 基本 操作 ; 而 后 者 
执行 这 些 操作 。 和 第 4 章 中 研究 过 的 按 序 (in-order) 流 水 线 相 比 ， 乱 序 处 理 器 需要 更 大 、 
更 复杂 的 硬件 ， 但 是 它们 能 更 好 地 达到 更 高 的 指令 级 并 行 度 。 








数据 高 速 缓存 





图 5-11 一 个 乱 序 处 理 器 的 框图 。 指 令 控制 单元 负责 从 内 存 中 读 出 指令 ， 并 产生 一 系列 基本 操 
作 。 然 后 执行 单元 完成 这 些 操作 ， 以 及 指出 分 支 预测 是 否 正确 


ICU 从 指令 高 速 缓存 (instruction cache) 中 读 取 指令 ， 指 令 高 速 缓存 是 一 个 特殊 的 高 
速 存储 器 ， 它 包含 最 近 访 问 的 指令 。 通 常 ，ICU 会 在 当前 正在 执行 的 指令 很 早 之 前 取 指 ， 
这 样 它 才 有 足够 的 时 间 对 指令 译 码 ， 并 把 操作 发 送 到 EU。 不 过 ， 一 个 问题 是 当 程 序 遇 到 
分 支 9 时 ， 程 序 有 两 个 可 能 的 前 进 方 向 。 一 种 可 能 会 选择 分 支 ， 控 制 被 传递 到 分 支 目标 。 
另 一 种 可 能 是 ， 不 选择 分 支 ， 控 制 被 传递 到 指令 序列 的 下 一 条 指令 。 现 代 处 理 器 采用 了 一 
种 称 为 分 支 预测 (branch prediction) 的 技术 ， 处 理 器 会 猜测 是 否 会 选择 分 支 ， 同 时 还 预测 
分 支 的 目标 地 址 。 使 用 投机 执行 (speculative execution) 的 技术 ， 处 理 器 会 开始 取出 位 于 它 
预测 的 分 支 会 跳 到 的 地 方 的 指令 ， 并 对 指令 译 码 ， 甚 至 在 它 确定 分 支 预测 是 否 正 确 之 前 就 
开始 执行 这 些 操 作 。 如 果 过 后 确定 分 支 预测 错误 ， 会 将 状态 重新 设置 到 分 支点 的 状态 ， 并 
开始 取出 和 执行 另 一 个 方向 上 的 指令 。 标 记 为 取 指 控制 的 块 包括 分 支 预测 ， 以 完成 确定 取 
哪些 指令 的 任务 。 

旨 令 译 码 逻辑 接收 实际 的 程序 指令 ， 并 将 它们 转换 成 一 组 基本 操作 (有 时 称 为 微 操作 )， 
每 个 这 样 的 操作 都 完成 某 个 简单 的 计算 任务 ， 例 如 两 个 数 相 加 ， 从 内 存 中 读数 据 ， 或 是 向 内 
存 写 数据 。 对 于 具有 复杂 指令 的 机 器 ， 比 如 x86 处 理 器 ， 一 条 指令 可 以 被 译 码 成 多 个 操作 ， 
关于 指令 如 何 被 译 码 成 操作 序列 的 细节 ， 不 同 的 机 器 都 会 不 同 ， 这 个 信息 可 谓 是 高 度 机 密 。 
幸运 的 是 ， 不 需要 知道 某 台 机 器 实现 的 底层 细节 ， 我 们 也 能 优化 自己 的 程序 。 


加 术语 “分 支 ” 专 指 条 件 转移 指令 。 对 处 理 器 来 说 ， 其 他 可 能 将 控制 传送 到 多 个 目的 地 址 的 指令 ， 例 如 过 程 
返回 和 间接 跳 转 ， 带 来 的 也 是 类 似 的 挑战 。 
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在 一 个 典型 的 x86 实现 中 ， 一 条 只 对 寄存 器 操作 的 指令 ， 例 如 


addq %rax,%rdx 


会 被 转化 成 一 个 操作 。 另 一 方面 ， 一 条 包括 一 个 或 者 多 个 内 存 引 用 的 指令 ， 例 如 
addq %rax,8(%rdx) 


会 产生 多 个 操作 ， 把 内 存 引 用 和 算术 运算 分 开 。 这 条 指令 会 被 译 码 成 为 三 个 操作 : 一 个 操 
作 从 内 存 中 加 载 一 个 值 到 处 理 器 中 ， 一 个 操作 将 加 载 进来 的 值 加 上 寄存 器 srax 中 的 值 ， 
而 一 个 操作 将 结果 存 回 到 内 存 。 这 种 译 码 逻辑 对 指令 进行 分 解 ， 允 许 任 务 在 一 组 专门 的 硬 
件 单元 之 间 进 行 分 割 。 这 些 单元 可 以 并 行 地 执行 多 条 指令 的 不 同 部 分 。 

EU 接收 来 自 取 指 单元 的 操作 。 通 常 ， 每 个 时 钟 周期 会 接收 多 个 操作 。 这 些 操作 会 被 
分 派 到 一 组 功能 单元 中 ， 它 们 会 执行 实际 的 操作 。 这 些 功 能 单元 专门 用 来 处 理 不 同类 型 的 
操作 。 

读 写 内存 是 由 加 载 和 存储 单元 实现 的 。 加 载 单 元 处 理 从 内 存 读数 据 到 处 理 器 的 操作 。 
这 个 单元 有 一 个 加 法 器 来 完成 地 址 计算 。 类 似 ， 存 储 单元 处 理 从 处 理 器 写 数据 到 内 存 的 操 
作 。 它 也 有 一 个 加 法 器 来 完成 地 址 计算 。 如 图 中 所 示 ， 加 载 和 存储 单元 通过 数据 高 速 缓存 
(data cache) 来 访问 内 存 。 数 据 高 速 缓存 是 一 个 高 速 存储 器 ， 存 放 着 最 近 访 问 的 数据 值 。 

使 用 投机 执行 技术 对 操作 求 值 ， 但 是 最 终结 果 不 会 存放 在 程序 寄存 器 或 数据 内 存 中 ， 
直到 处 理 器 能 确定 应 该 实际 执行 这 些 指令 。 分 支 操作 被 送 到 EU， 不 是 确定 分 支 该 往 哪 里 
去 ， 而 是 确定 分 支 预测 是 否 正确 。 如 果 预 测 错误 ，EU 会 丢弃 分 支点 之 后 计算 出 来 的 结果 。 
它 还 会 发 信号 给 分 支 单元 ， 说 预测 是 错误 的 ， 并 指出 正确 的 分 支 目 的 。 在 这 种 情况 中 ， 分 
支 单元 开始 在 新 的 位 置 取 指 。 如 在 3. 6. 6 节 中 看 到 的 ， 这 样 的 预测 错误 会 导致 很 大 的 性 能 
开销 。 在 可 以 取出 新 指令 、 译 码 和 发 送 到 执行 单元 之 前 ， 要 花费 一 点 时 间 。 

5-11 说 明 不 同 的 功能 单元 被 设计 来 执行 不 同 的 操作 。 那 些 标记 为 执行 “算术 运算 ” 
的 单元 通常 是 专门 用 来 执行 整数 和 浮 点 数 操作 的 不 同 组 合 。 随 着 时 间 的 推移 ， 在 单个 微 处 
理 器 芯片 上 能 够 集成 的 晶体 管 数量 越 来 越 多 ， 后 续 的 微 处 理 器 型 号 都 增加 了 功能 单元 的 数 
量 以 及 每 个 单元 能 执行 的 操作 组 合 ， 还 提升 了 每 个 单元 的 性 能 。 由 于 不 同 程序 间 所 要 求 的 
操作 变化 很 大 ， 因 此 ， 算 术 运 算 单 元 被 特意 设计 成 能 够 执行 各 种 不 同 的 操作 。 比 如 ， 有 些 
程序 也 许 会 涉及 整数 操作 ， 而 其 他 则 要 求 许多 浮 点 操作 。 如 果 一 个 功能 单元 专门 执行 整数 
操作 ， 而 另 一 个 只 能 执行 浮 点 操作 ， 那 么 ， 这 些 程序 就 没有 一 个 能 够 完全 得 到 多 个 功能 单 


元 带 来 的 好 处 了 。 
人 举 个 例子 ， 我 们 的 Intel Core i7 Haswell 参考 机 有 8 个 功能 单元 ， 编 号 为 0 一 7。 下 面 
部 分 列 出 了 每 个 单元 的 功能 : 


0， 整数 运算 、 浮 点 乘 、 整 数 和 浮 点 数 除法 、 分 支 

: 整数 运算 、 浮 点 加 、 整 数 乘 、 浮 点 乘 

: 加 载 、 地 址 计算 

: 加 载 、 地 址 计算 

存储 

: 整数 运算 

: 整数 运算 、 分 支 

: 存储 、 地 址 计算 

在 上 面 的 列表 中 , “整数 运算 ”是 指 基本 的 操作 ， 比 如 加 法 、 位 级 操作 和 移 位 。 乘 法 


om 








和 除法 需要 更 多 的 专用 资源 。 我 们 看 到 存储 操作 要 两 个 功能 单元 一 一 一 个 计算 存储 地 址 ， 
一 个 实际 保存 数据 。5. 12 节 将 讨论 存储 (和 加 载 ) 操 作 的 机 制 。 

我 们 可 以 看 出 功能 单元 的 这 种 组 合 具 有 同时 执行 多 个 同类 型 操作 的 潜力 。 它 有 4 个 功 
能 单元 可 以 执行 整数 操作 ，2 个 单元 能 执行 加 载 操 作 ，2 个 单元 能 执行 浮 点 乘法 。 稍 后 我 
们 将 看 到 这 些 资源 对 程序 获得 最 大 性 能 所 带 来 的 影响 。 

在 ICU 中 ， 退 役 单 元 (retirement unit) 记 录 正 在 进行 的 处 理 ， 并 确保 它 遵守 机 器 级 程 
序 的 顺序 语义 。 我 们 的 图 中 展示 了 一 个 寄存 器 文件 ， 它 包含 整数 、 浮 点 数 和 最 近 的 SSE 和 
AVX 寄存 器 ， 是 退役 单元 的 一 部 分 ， 因 为 退役 单元 控制 这 些 寄存 器 的 更 新 。 指 令 译 码 时 ， 
关于 指令 的 信息 被 放置 在 一 个 先进 先 出 的 队列 中 。 这 个 信息 会 一 直 保 持 在 队列 中 ， 直 到 发 
生 以 下 两 个 结果 中 的 一 个 。 首 先 ， 一 旦 一 条 指令 的 操作 完成 了 ， 而 且 所 有 引起 这 条 指令 的 
分 支点 也 都 被 确认 为 预测 正确 ， 那 么 这 条 指令 就 可 以 退役 (retired) 了 ， 所 有 对 程序 寄存 器 
的 更 新 都 可 以 被 实际 执行 了 。 男 一 方面 ， 如 果 引 起 该 指令 的 某 个 分 支点 预测 错误 ， 这 条 指 
令 会 被 清空 (flushed)， 丢 弃 所 有 计算 出 来 的 结果 。 通 过 这 种 方法 ， 预 测 错误 就 不 会 改变 程 
序 的 状态 了 。 

正如 我 们 已 经 描述 的 那样 ， 任 何 对 程序 寄存 器 的 更 新 都 只 会 在 指令 退役 时 才 会 发 生 ， 
只 有 在 处 理 器 能 够 确信 导致 这 条 指令 的 所 有 分 支 都 预测 正确 了 ， 才 会 这 样 做 。 为 了 加 速 一 
条 指令 到 另 一 条 指令 的 结果 的 传送 ， 许 多 此 类 信息 是 在 执行 单元 之 间 交 换 的 ， 即 图 中 的 
“操作 结果 ”。 如 图 中 的 箭头 所 示 ， 执 行 单元 可 以 直接 将 结果 发 送 给 彼此 。 这 是 4. 5. 5 节 中 
简单 处 理 器 设计 中 采用 的 数据 转发 技术 的 更 复杂 精细 版 本 。 

控制 操作 数 在 执行 单元 间 传 送 的 最 常见 的 机 制 称 为 寄存 器 重 命名 (register renaming)。 当 
一 条 更 新 寄存 器 > 的 指令 译 码 时 ， 产 生 标 记 纪 得 到 一 个 指向 该 操作 结果 的 唯一 的 标识 符 。 
条 目 (~， 妨 被 加 入 到 一 张 表 中 ， 该 表 维 护 着 每 个 程序 寄存 器 > 与 会 更 新 该 寄存 器 的 操作 的 标 
记 t 之 间 的 关联 。 当 随后 以 寄存 器 7 作为 操作 数 的 指令 译 码 时 ， 发 送 到 执行 单元 的 操作 会 包 
含 t 作 为 操作 数 源 的 值 。 当 某 个 执行 单元 完成 第 一 个 操作 时 ,会 生成 一 个 结果 (wv，z)， 指 明 
标记 为 + 的 操作 产生 值 wv。 所 有 等 待 1 作为 源 的 操作 都 能 使 用 wv 作为 源 值 ， 这 就 是 一 种 形式 的 
数据 转发 。 通 过 这 种 机 制 ， 值 可 以 从 一 个 操作 直接 转发 到 另 一 个 操作 ， 而 不 是 写 到 寄存 器 文 
件 再 读 出 来 ， 使 得 第 二 个 操作 能 够 在 第 一 个 操作 完成 后 尽快 开始 。 重 命名 表 只 包含 关于 有 未 
进行 写 操作 的 寄存 器 条 目 。 当 一 条 被 译 码 的 指令 需要 寄存 器 >， 而 又 没有 标记 与 这 个 寄存 器 
相关 联 ， 那 么 可 以 直接 从 寄存 器 文件 中 获取 这 个 操作 数 。 有 了 寄存 器 重 命名 ， 即 使 只 有 在 处 
理 器 确定 了 分 支 结 果 之 后 才能 更 新 寄存 器 ， 也 可 以 预测 着 执行 操作 的 整个 序列 。 


国 末 乱 序 处 理 的 历史 ， 

乱 序 处 理 最 早 是 在 1964 年 Control Data Corporation 的 6600 处 理 器 中 实现 的 。 指 令 
由 十 个 不 同 的 功能 单元 处 理 ， 每 个 单元 都 能 独立 地 运行 。 在 那个 时 候 ， 这 种 时 钟 频率 为 
10Mhz 的 机 器 被 认为 是 科学 计算 最 好 的 机 器 。 

在 1966 年 ，IBM 首先 是 在 IBM 360/91 上 实现 了 乱 序 处 理 ， 但 只 是 用 来 执行 浮 点 指 
令 。 在 大 约 25 年 的 时 间 里 ， 乱 序 处 理 都 被 认为 是 一 项 异乎 寻常 的 技术 ， 只 在 追求 尽 可 
能 高 性 能 的 机 器 中 使 用 ， 直 到 1990 年 IBM 在 RS/6000 系列 工作 站 中 重新 引入 了 这 项 技 
术 。 这 种 设计 成 为 了 IBM/Motorola PowerPC 系列 的 基础 ，1993 年 引入 的 型 号 601， 它 ， 
成 为 第 一 个 使 用 乱 序 处 理 的 单 芯片 微 处 理 器 。Intel 在 1995 年 的 PentiumPro 型 号 中 引入 ， 
了 乱 序 处 理 ，PentiumPro 的 底层 微 体系 结构 类 似 于 我 们 的 参考 机 。 ， 
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5.7.2 功能 单元 的 性 能 

图 5-12 提供 了 Intel Core i7 Haswell 参考 机 的 一 些 算 术 运 算 的 性 能 ， 有 的 是 测量 出 来 
的 ， 有 的 是 引用 Intel 的 文献 [49]。 这 些 时 间 对 于 其 他 处 理 器 来 说 也 是 具有 代表 性 的 。 每 
个 运算 都 是 由 以 下 这 些 数值 来 刻画 的 : 一 个 是 延迟 (latency)， 它 表示 完成 运算 所 需要 的 总 
时 间 ; 另 一 个 是 发 射 时间 (issue time)， 它 表示 两 个 连续 的 同类 型 的 运算 之 间 需 要 的 最 小 
时 钟 周期 数 ; 还 有 一 个 是 容量 (capacity)， 它 表示 能 够 执行 该 运算 的 功能 单元 的 数量 。 
浮 点 数 
发 射 容量 


























图 5-12 参考 机 的 操作 的 延迟 、 发 射 时 间 和 容量 特性 。 延 迟 表 明 执 行 实际 运算 所 需要 的 时 钟 周期 总 数 ， 
而 发 射 时 间 表明 两 次 运算 之 间 间 隔 的 最 小 周期 数 。 容 量 表明 同时 能 发 射 多 少 个 这 样 的 操作 。 除 法 
需要 的 时 间 依 赖 于 数据 值 


我 们 看 到 ， 从 整数 运算 到 浮 点 运算 ， 延 迟 是 增加 的 。 还 可 以 看 到 加 法 和 乘法 运算 的 发 
射 时 间 都 为 1， 意思 是 说 在 每 个 时 钟 周 期 ， 处 理 器 都 可 以 开始 一 条 新 的 这 样 的 运算 。 这 种 
很 短 的 发 射 时 间 是 通过 使 用 流水 线 实现 的 。 流 水 线 化 的 功能 单元 实现 为 一 系列 的 阶段 
(stage) ， 每 个 阶段 完成 一 部 分 的 运算 。 例 如 ， 一 个 典型 的 浮 点 加 法 器 包含 三 个 阶段 (所 以 
有 三 个 周期 的 延迟 ) : 一 个 阶段 处 理 指数 值 ， 一 个 阶段 将 小 数 相 加 ， 而 另 一 个 阶段 对 结果 
进行 含 人 。 算 术 运 算 可 以 连续 地 通过 各 个 阶段 ， 而 不 用 等 待 一 个 操作 完成 后 再 开始 下 一 
个 。 只 有 当 要 执行 的 运算 是 连续 的 、 逻 辑 上 独立 的 时 候 ， 才 能 利用 这 种 功能 。 发 射 时 间 为 
1 的 功能 单元 被 称 为 完全 流水 线 化 的 (fully pipelined) : 每 个 时 钟 周 期 可 以 开始 一 个 新 的 运 
算 。 出 现 容量 大 于 1 的 运算 是 由 于 有 多 个 功能 单元 ， 就 如 前 面 所 述 的 参考 机 一 样 。 

我 们 还 看 到 ， 除 法 器 (用 于 整数 和 浮 点 除法 ， 还 用 来 计算 浮 点 平方 根 ) 不 是 完全 流水 线 
化 的 一 一 它 的 发 射 时 间 等 于 它 的 延迟 。 这 就 意味 着 在 开始 一 条 新 运算 之 前 ， 除 法 器 必须 完 
成 整个 除法 。 我 们 还 看 到 ， 对 于 除法 的 延迟 和 发 射 时 间 是 以 范围 的 形式 给 出 的 ， 因 为 某 些 
被 除数 和 除数 的 组 合 比 其 他 的 组 合 需要 更 多 的 步 又。 除法 的 长 延迟 和 长 发 射 时 间 使 之 成 为 
了 一 个 相对 开销 很 大 的 运算 。 

， 表 达 发 射 时 间 的 一 种 更 常见 的 方法 是 指明 这 个 功能 单元 的 最 大 吞吐 量 ， 定 义 为 发 射 时 
间 的 倒数 。 一 个 完全 流水 线 化 的 功能 单元 有 最 大 的 吞吐 量 ， 每 个 时 钟 周 期 一 个 运算 ， 而 发 
射 时 间 较 大 的 功能 单元 的 最 大 吞吐 量 比较 小 。 具 有 多 个 功能 单元 可 以 进一步 提高 吞吐 量 。 
对 一 个 容量 为 C， 发 射 时 间 为 了 的 操作 来 说 ， 处 理 器 可 能 获得 的 吞吐 量 为 每 时 钟 周期 C/T 
个 操作 。 比 如 ， 我 们 的 参考 机 可 以 每 个 时 钟 周期 执行 两 个 浮 点 乘法 运算 。 我 们 将 看 到 如 何 
利用 这 种 能 力 来 提高 程序 的 性 能 。 

电路 设计 者 可 以 创建 具有 各 种 性 能 特性 的 功能 单元 。 创 建 一 个 延迟 短 或 使 用 流水 线 的 
单元 需要 较 多 的 硬件 ， 特 别 是 对 于 像 乘法 和 浮 点 操作 这 样 比较 复杂 的 功能 。 因 为 微 处 理 器 
芯片 上 ， 对 于 这 些 单元 ， 只 有 有 限 的 空间 ， 所 以 CPU 设计 者 必须 小 心地 平衡 功能 单元 的 
数量 和 它们 各 自 的 性 能 ， 以 获得 最 优 的 整体 性 能 。 设 计 者 们 评估 许多 不 同 的 基准 程序 ， 将 
大 多 数 资 源 用 于 最 关键 的 操作 。 如 图 5-12 表明 的 那样 ， 在 Core i7 Haswell 处 理 器 的 设计 
中 ， 整 数 乘法 、 浮 点 乘法 和 加 法 被 认为 是 重要 的 操作 ， 即 使 为 了 获得 低 延 迟 和 较 高 的 流水 
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线 化 程度 需要 大 量 的 硬件 。 另 一 方面 ， 除 法 相对 不 太 常 用 ， 而 且 要 想 实现 低 延 迟 或 完全 流 
水 线 化 是 很 困难 的 。 

这 些 算术 运算 的 延迟 、 发 射 时 间 和 容量 会 影响 合并 函数 的 性 能 。 我 们 用 CPE 值 的 两 
个 基本 界限 来 描述 这 种 影响 : 








香 吐 量 


延迟 界限 给 出 了 任何 必须 按照 严格 顺序 完成 合并 运算 的 函数 所 需要 的 最 小 CPE 值 。 根 据 
功能 单元 产生 结果 的 最 大 速率 ， 吞吐 量 界限 给 出 了 CPE 的 最 小 界限 。 例 如 ， 因 为 只 有 一 
个 整数 乘法 器 ， 它 的 发 射 时 间 为 1 个 时 钟 周期 ， 处 理 器 不 可 能 支持 每 个 时 钟 周期 大 于 1 条 
乘法 的 速度 。 另 一 方面 ， 四 个 功能 单元 都 可 以 执行 整数 加 法 ， 处 理 器 就 有 可 能 持续 每 个 周 
期 执行 4 个 操作 的 速率 。 不 幸 的 是 ， 因 为 需要 从 内 存 读 数据 ， 这 造成 了 另 一 个 吞吐 量 界 
限 。 两 个 加 载 单元 限制 了 处 理 器 每 个 时 钟 周期 最 多 只 能 读 取 两 个 数据 值 ， 从 而 使 得 吞吐 量 
界限 为 0. 50。 我 们 会 展示 延迟 界限 和 吞吐 量 界限 对 合并 函数 不 同 版 本 的 影响 。 





[ee 
讽 





5.7.3 ”处理 器 操作 的 抽象 模型 


作为 分 析 在 现代 处 理 器 上 执行 的 机 器 级 程序 性 能 的 一 个 工具 ， 我 们 会 使 用 程序 的 数据 
流 (data-flow) 表 示 ， 这 是 一 种 图 形 化 的 表示 方法 ， 展 现 了 不 同 操作 之 间 的 数据 相关 是 如 何 
限制 它们 的 执行 顺序 的 。 这 些 限 制 形成 了 图 中 的 关键 路 径 (critical path)， 这 是 执行 一 组 机 
器 指令 所 需 时 钟 周 期 数 的 一 个 下 界 。 

在 继续 技术 细节 之 前 ， 检 查 一 下 函数 combine4 的 CPE 测量 值 是 很 有 帮助 的 ， 到 目前 
为 止 combine4 是 最 快 的 代码 : 


| ee 
函数 


方法 
combine4 累积 在 临时 变量 中 .2 3.01 3.01 5. 0 
延迟 界限 1.00 i; g 
吞吐 量 界限 0. 50 5 


我 们 可 以 看 到 ， 除 了 整数 加 法 的 情况 ， 这 些 测量 值 与 处 理 器 的 延迟 界限 是 一 样 的 。 这 
不 是 巧合 一 一 它 表 明 这 些 函 数 的 性 能 是 由 所 执行 的 求 和 或 者 乘积 计算 主 宁 的 。 计 算 nn 个 元 
素 的 乘积 或 者 和 需要 大 约 工 .十 天 个 时 钟 周期 ， 这 里 工 是 合并 运算 的 延迟 ， 而 K 表示 调 
用 隶 数 和 初始 化 以 及 终止 循环 的 开销 。 因 此 ，CPE 就 等 于 延迟 界限 工 。 

1. 从 机 器 级 代码 到 数据 流 图 

程序 的 数据 流 表示 是 非 正式 的 。 我 们 只 是 想 用 它 来 形象 地 描述 程序 中 的 数据 相关 是 如 
何 主宰 程序 的 性 能 的 。 以 combine4( 图 5-10) 为 例 来 描述 数据 流 表示 法 。 我 们 将 注意 力 集 
中 在 循环 执行 的 计算 上 ， 因 为 对 于 大 向 量 来 说 ， 这 是 决定 性 能 的 主要 因素 。 我 们 考虑 类 型 
为 double 的 数据 、 以 乘法 作为 合并 运算 的 情况 ， 不 过 其 他 数据 类 型 和 运算 的 组 合 也 有 几 
乎 一 样 的 结构 。 这 个 循环 编译 出 的 代码 由 4 条 指令 组 成 ， 寄 存 器 srdx 存放 指向 数组 data ， 
中 第 i 个 元 素 的 指针 ,%rax 存放 指向 数组 末尾 的 指针 ， 而 sxmm0 存放 累积 值 acc。 
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Tnner loop of combine4. data_t = double, OP = * 
acc in Yxmm0, datat+i in Yrdx, datatlength in ¥%rax 


] :L265: loop: 

2 vmulsd (%rdx), %xmmO, %xmmO Multiply acc by data[i] 
3 addq $8, %rdx Increment datati 

4 cmpq %rax, hrdx Compare to datatlength 
5 jne .L25 If !=, goto loop 


如 图 5-13 所 示 ， 在 我 们 假想 的 处 理 器 设计 中 ， 指 令 译 码 器 会 把 这 4 条 指令 扩展 成 为 
一 系列 的 五 步 操 作 ， 最 开始 的 乘法 指令 被 扩展 成 一 个 load 操作 ， 从 内 存 读 出 源 操作 数 ， 
和 一 个 mul 操作 ， 执 行 乘法 。 


ardx 






上 (Srdx), gxmm0 ， $xmmO0 


addq $8,%rdx 
cmpq %rax,%rdx 


jne loop 


Sxmm0 


图 5-13 ”combine4 的 内 循环 代码 的 图 形 化 表示 。 指 令 动态 地 被 翻译 成 一 个 或 两 个 操作 ， 每 个 
操作 从 其 他 操作 或 寄存 器 接收 值 ， 并 且 为 其 他 操作 和 寄存 器 产生 值 。 我 们 给 出 最 后 
一 条 指令 的 目标 为 标号 loop。 它 跳 转 到 给 出 的 第 一 条 指令 


作为 生成 程序 数据 流 图 表示 的 一 步 ， 图 5-13 左手 边 的 方 框 和 线 给 出 了 各 个 指令 是 如 
何 使 用 和 更 新 寄存 器 的 ， 顶 部 的 方 框 表示 循环 开始 时 寄存 器 的 值 ， 而 底部 的 方 框 表示 最 后 
寄存 器 的 值 。 例 如 ， 寄 存 器 srax 只 被 cmp 操作 作为 源 值 ， 因 此 这 个 寄存 器 在 循环 结束 时 
有 着 同 循环 开始 时 一 样 的 值 。 另 一 方面 ， 在 循环 中 ， 寄 存 器 $rdx 既 被 使 用 也 被 修改 。 它 
的 初始 值 被 load 和 add 操作 使 用 ; 它 的 新 值 由 add 操作 产生 ， 然 后 被 cmp 操作 使 用 。 在 
循环 中 ，mul 操作 首先 使 用 寄存 器 $xmm0 的 初始 值 作 为 源 值 ， 然 后 会 修改 它 的 值 。 

图 5-13 中 的 某 些 操作 产生 的 值 不 对 应 于 任何 寄存 器 。 在 右边 ， 用 操作 间 的 弧 线 来 表 
示 。load 操作 从 内 存 读 出 一 个 值 ， 然 后 把 它 直 接 传递 到 mul 操作 。 由 于 这 两 个 操作 是 通 
过 对 一 条 vmulsd 指令 译 码 产生 的 ， 所 以 这 个 在 两 个 操作 之 间 传 递 的 中 间 值 没有 与 之 相关 
联 的 寄存 器 。cmp 操作 更 新 条 件 码 ， 然 后 jne 操作 会 测试 这 些 条 件 码 。 

对 于 形成 循环 的 代码 片段 ， 我 们 可 以 将 访问 到 的 寄存 器 分 为 四 类 

只 读 : 这 些 寄存 器 只 用 作 源 值 ， 可 以 作为 数据 ， 也 可 以 用 来 计算 内 存 地 址 ， 但 是 在 循 
环 中 它们 是 不 会 被 修改 的 。 循 环 combine4 的 只 读 寄 存 器 是 srax。 

只 写 : 这 些 寄存 器 作为 数据 传送 操作 的 目的 。 在 本 循环 中 没有 这 样 的 寄存 器 。 

局 部 : 这 些 寄 存 器 在 循环 内 部 被 修改 和 使 用 ， 和 迭代 与 迭代 之 间 不 相关 。 在 这 个 循环 
中 ， 条 件 码 寄存 器 就 是 例子 : cmp 操作 会 修改 它们 ， 然 后 jne 操作 会 使 用 它们 ， 不 过 这 种 
相关 是 在 单 次 迭代 之 内 的 。 

循环 : 对 于 循环 来 说 ， 这 些 寄存 器 既 作 为 源 值 ， 又 作为 目的 ， 一 次 迭代 中 产生 的 值 会 
在 男 一 次 迭代 中 用 到 。 可 以 看 到 ,%rdx 和 sxmm0 是 combine4 的 循环 寄存 器 ， 对 应 于 程序 





值 aata+i 和 acc。 


正如 我 们 会 看 到 的 ， 循 环 寄 存 器 之 间 的 操作 链 决定 了 限制 性 能 的 数据 相关 。 

图 5-14 是 对 图 5-13 的 图 形 化 表示 的 进一步 改进 ， 目 标 是 只 给 出 影响 程序 执行 时 间 的 操 
作 和 数据 相关 。 在 图 5-14a 中 看 到 ， 我 们 重新 排列 了 操作 符 ， 更 清晰 地 表明 了 从 顶部 源 寄存 
器 (只 读 寄 存 器 和 循环 寄存 器 ) 到 底部 目的 寄存 器 (只 写 寄 存 器 和 循环 寄存 器 ) 的 数据 流 。 





a) 重新 排列 了 图 5-13 的 操作 符 ， 
更 清晰 地 表明 了 数据 相关 


在 图 5-14a 中 ， 如 果 操 作 符 不 属于 某 个 循 
环 寄 存 器 之 间 的 相关 链 ， 那 么 就 把 它们 标识 成 
白色 。 例 如， 比较 (cmpb) 和 分 支 (jne) 操 作 不 直 
接 影响 程序 中 的 数据 流 。 假 设 指令 控制 单元 预 
测 会 选择 分 支 ， 因 此 程序 会 继续 循环 。 比 较 和 
分 支 操 作 的 目的 是 测试 分 支 条 件 ， 如 果 不 选 择 
分 支 的 话 ， 就 通知 ICU。 我 们 假设 这 个 检查 能 
够 完成 得 足够 快 ， 不 会 减 慢 处 理 器 的 执行 。 

在 图 5-14b 中 ， 消 除了 左边 标识 为 白色 的 
操作 符 ， 而 且 只 保留 了 循环 寄存 器 。 剩 下 的 
是 一 个 抽象 的 模板 ， 表 明 的 是 由 于 循环 的 一 
次 迭代 在 循环 寄存 右 中 形成 的 数据 相关 。 在 
这 个 图 中 可 以 看 到 ， 从 一 次 迭代 到 下 一 次 迭 
代 有 两 个 数据 相关 。 在 一 边 ， 我 们 看 到 存储 
在 寄存 器 sxmmg0 中 的 程序 值 acc 的 连续 的 值 之 
间 有 相关 。 通 过 将 acc 的 旧 值 乘 以 一 个 数据 
元 素 ， 循 环 计算 出 acc 的 新 值 ， 这 个 数据 元 素 


是 由 load 操作 产生 的 。 在 另 一 边 ， 我 们 看 到 循 _ 


环 索引 i 的 连续 的 值 之 间 有 相关 。 每 次 迭代 中 ， 
i 的 旧 值 用 来 计算 load 操作 的 地 址 ， 然 后 add 
操作 也 会 增加 它 的 值 ， 计 算出 新 值 。 

图 5-15 给 出 了 函数 combine4 内 循环 的 n 
次 迭代 的 数据 流 表 示 。 可 以 看 出 ， 简 单 地 重 

















b) 操作 在 一 次 兴 代 中 使 用 某 些 值 ， 
产生 出 在 下 一 次 迭代 中 需要 的 新 值 


图 5-14 将 combine4 的 操作 抽象 成 数据 流 图 








关键 路 径 


dataf{f0] 


data[1i] 





datatn-2] 1 | 






data [n-1] 


combine4 的 内 循环 的 n 次 迄 代 计算 的 
数据 流 表 示 。 乘 法 操作 的 序列 形成 了 限 
制程 序 性 能 的 关键 路 径 
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复 图 5-14 右边 的 模板 ” 次 ， 就 能 得 到 这 张 图 。 我 们 可 以 看 到 ， 程 序 有 两 条 数据 相关 链 ， 
分 别 对 应 于 操作 mul 和 aqd 对 程序 值 acc 和 data+i 的 修改 。 假 设 浮 点 乘法 延迟 为 5 个 周 
期 ， 而 整数 加 法 延迟 为 1 个 周期 ， 可 以 看 到 左边 的 链 会 成 为 关键 路 径 ， 需 要 52 个 周期 执 
行 。 右边 的 链 只 需要 n 个 周期 执行 ， 因 此 ， 它 不 会 制约 程序 的 性 能 。 

图 5-15 说 明 在 执行 单 精度 浮 点 乘法 时 ， 对 于 combine4， 为 什么 我 们 获得 了 等 于 5 个 周 
期 延迟 界限 的 CPE。 当 执行 这 个 函数 时 ， 浮 点 乘法 器 成 为 了 制约 资源 。 循 环 中 需要 的 其 他 操 
作 一 一 控制 和 测试 指针 值 data+i， 以 及 从 内 存 中 读数 据 一 一 与 乘法 器 并 行 地 进行 。 每 次 后 继 的 
acc 的 值 被 计算 出 来 ， 它 就 反馈 回来 计算 下 一 个 值 ， 不 过 只 有 等 到 5 个 周期 后 才能 完成 。 

其 他 数据 类 型 和 运算 组 合 的 数据 流 与 图 5-15 所 示 的 内 容 一 样 ， 只 是 在 左边 的 形成 数 
据 相关 链 的 数据 操作 不 同 。 对 于 所 有 情况 ， 如 果 运 算 的 延迟 ，L 大 于 1， 那 么 可 以 看 到 测 
量 出 来 的 CPE 就是， 表明 这 个 链 是 制约 性 能 的 关键 路 径 。 

2. 其 他 性 能 因素 

男 一 方面 ， 对 于 整数 加 法 的 情况 ,我 们 对 combine4 的 测试 表明 CPE 为 1. 27， 而 根 
据 沿 着 图 5-15 中 左边 和 右边 形成 的 相关 链 预 测 的 CPE 为 1.00， 测试 值 比 预测 值 要 慢 。 这 
说 明了 一 个 原则 ， 那 就 是 数据 流 表示 中 的 关键 路 径 提 供 的 只 是 程序 需要 周期 数 的 下 界 。 还 
有 其 他 一 些 因素 会 限制 性 能 ， 包 括 可 用 的 功能 单元 的 数量 和 任何 一 步 中 功能 单元 之 间 能 够 
传递 数据 值 的 数量 。 对 于 合并 运算 为 整数 加 法 的 情况 ， 数 据 操作 足够 快 ， 使 得 其 他 操作 供 
应 数据 的 速度 不 够 快 。 要 准确 地 确定 为 什么 程序 中 每 个 元 素 需要 1. 27 个 周期 ， 需要 比 公 
开 可 以 获得 的 更 详细 的 硬件 设计 知识 。 

总 结 一 下 combine4 的 性 能 分 析 : 我 们 对 程序 操作 的 抽象 数据 流 表示 说 明 ，combine4 
的 关键 路 径 长 二 n 是 由 对 程序 值 acc 的 连续 更 新 造成 的 ， 这 条 路 径 将 CPE 限制 为 最 多 
L。 除 了 整数 加 法 之 外 ， 对 于 所 有 的 其 他 情况 ,测量 出 的 CPE 确实 等 于 工 ， 对 于 整数 加 
法 ,测量 出 的 CPE 为 1. 27 而 不 是 根据 关键 路 径 的 长 度 所 期 望 的 1. 00。 

看 上 去 ， 延 迟 界限 是 基本 的 限制 ， 决 定 了 我 们 的 合并 运算 能 执行 多 快 。 接 下 来 的 任务 
是 重新 调整 操作 的 结构 ， 增 强 指 令 级 并 行 性 。 我 们 想 对 程序 做 变换 ， 使 得 唯一 的 限制 变 成 
否 吐 量 界限 ， 得 到 接近 于 1. 00 的 CPE。 
练习 题 5.5 假设 写 一 个 对 多 项 式 求 值 的 函数 ， 这 里 ， 多 项 式 的 次 数 为 n， 系 数 为 co， 

aa，…，as。 对 于 值 Z， 我 们 对 多 项 式 求 值 ， 计 算 

ao 十 ai 十 asz 十 … 十 ao7 (5. 2) 

这 个 求 值 可 以 用 下 面 的 函数 来 实现 ， 参 数 包 括 一 个 系数 数组 a、 值 x 和 多 项 式 的 次 数 

degree( 等 式 (5.2) 中 的 值 2)。 在 这 个 函数 的 一 个 循环 中 ， 我 们 计算 连续 的 等 式 的 项 ， 

以 及 连续 的 xz 的 竹 : 

1 double poly(double al[], double x, long degree) 

2 

3 3 long i; 

4 double result = a[0]; 

5 double xpwr = x; /* Equals x“i at start of loop */ 

6 for (i = 1; i <= degree; i++) { 

7 result += a[i] * xpwr; 

8 XPWr = X * Xpwr; 

9 有 

0 
| 


return result; 
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A. 对 于 次 数 n， 这 段 代码 执行 多 少 次 加 法 和 多 少 次 乘法 运算 ? 

B. 在 我 们 的 参考 机 上 ， 算 术 运 算 的 延 退 如 图 5-12 所 示 ， 我 们 测量 了 这 个 函数 的 CPE 
等 于 5.00。 根 据 由 于 实现 函数 第 7 一 8 行 的 操作 迭代 之 间 形 成 的 数据 相关 ， 解 释 为 
什么 会 得 到 这 样 的 CPE。 

可 练习 题 5.6 我 们 继续 探索 练习 题 5.5 中 描述 的 多 项 式 求 值 的 方法 。 通 过 采用 Horner 
法 (以 英国 数学 家 William G. Horner(1786 一 1837) 命 名 ) 对 多 项 式 求 值 ， 我 们 可 以 减少 
乘法 的 数量 。 其 思想 是 反复 提出 的 军 ， 得 到 下 面 的 求 值 : 

ao 十 Zali 十 zas 十 … 十 Za 十 Xa,)*…)) 人 5 
使 用 Horner 法 ， 我 们 可 以 用 下 面 的 代码 实现 多 项 式 求 值 : 


1 /* Apply Horner's method */ 

六 double polyh(double a[], double x, long degree) 

处 

4 long i; 

5 double result = a[degree] ; 

6 for (i = degree-1; i >= 0; i--) 

result = af[i] + x*result; 

8 return result; 

中 半 

A. 对 于 次 数 n， 这 段 代 码 执行 多 少 次 加 法 和 多 少 次 乘法 运算 ? 
B. 在 我 们 的 参考 机 上 ， 算 术 运算 的 延迟 如 图 5-12 所 示 ， 测 量 这 个 函数 的 CPE 等 于 


8. 00。 根 据 由 于 实现 函数 第 7 行 的 操作 迭代 之 间 形 成 的 数据 相关 ， 解 释 为 什么 会 
得 到 这 样 的 CPE。 
C. 请 解释 虽然 练习 题 5. 5 中 所 示 的 函数 需要 更 多 的 操作 ， 但 是 它 是 如 何 运行 得 更 快 的 。 


5.8 循环 展开 

循环 展开 是 一 种 程序 变换 ， 通 过 增加 每 次 迭代 计算 的 元 素 的 数量 ,减少 循环 的 迭代 次 数 。 
psum2 函数 ( 见 图 5-1) 就 是 这 样 一 个 例子 ， 其 中 每 次 迭代 计算 前 置 和 的 两 个 元 素 ， 因 而 将 
需要 的 迭代 次 数 减 半 。 循 环 展开 能 够 从 两 个 方面 改进 程序 的 性 能 。 首 先 ， 它 减少 了 不 直接 
有 助 于 程序 结果 的 操作 的 数量 ， 例 如 循环 索引 计算 和 条 件 分 支 。 第 二 ， 它 提供 了 一 些 方 
法 ， 可 以 进一步 变化 代码 ， 减 少 整个 计算 中 关键 路 径 上 的 操作 数量 。 在 本 节 中 ， 我 们 会 看 
一 些 简单 的 循环 展开 ， 不 做 任何 进一步 的 变化 。 

图 5-16 是 合并 代码 的 使 用 “2X1 循环 展开 ”的 版 本 。 第 一 个 循环 每 次 处 理 数 组 的 两 个 元 
素 。 也 就 是 每 次 和 迭代， 循环 索引 并 加 2， 在 一 次 和 欠 代 中 ， 对 数组 元 素 ; 和 ;十 1 使 用 合并 运算 。 

一 般 来 说 ， 向 量 长 度 不 一 定 是 2 的 倍数 。 想 要 使 我 们 的 代码 对 任意 向 量 长 度 都 能 正确 
工作 ， 可 以 从 两 个 方面 来 解释 这 个 需求 。 首 先 ， 要 确保 第 一 次 循环 不 会 超出 数组 的 界限 。 
对 于 长 度 为 n 的 向 量 ,， 我 们 将 循环 界限 设 为 n 一 1。 然 后 ,保证 只 有 当 循 环 索引 i 满足 i< 
n 一 1 时 才 会 执行 这 个 循环 ， 因 此 最 大 数组 索引 i 十 1 满足 i 十 1 过 (mn 一 1) 十 1 二 n。 

把 这 个 思想 归纳 为 对 一 个 循环 按 任 意 因 子 & 进行 展开 ， 由 此 产生 kX1 循环 展开 。 为 此 ， 
上 限 设 为 n 一 & 十 1， 在 循环 内 对 元 素 i 到 ;十 & 一 1 应 用 合并 运算 。 每 次 迭代 ， 循 环 索引 i 加 &%。 
那么 最 大 循环 索引 i 十 & 一 1 会 小 于 n。 要 使 用 第 二 个 循环 ， 以 每 次 处 理 一 个 元 素 的 方式 处 理 
向 量 的 最 后 几 个 元 素 。 这 个 循环 体 将 会 执行 0~k 一 1 次 。 对 于 二 2， 我 们 能 用 一 个 简单 的 条 
件 语句 ， 可 选 地 增加 最 后 一 次 迭代 ， 如 函数 psum2( 图 5-1) 所 示 。 对 于 & 之 2?， 最 后 的 这 些 情 
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襄 最 好 用 一 个 循环 来 表示 ， 所 以 对 & 一 2 的 情况 ,我 们 同样 也 采用 这 个 编程 惯例 。 我 们 称 这 
种 变换 为 “kX1 循环 展开 ”， 因 为 循环 展开 因子 为 &， 而 累积 值 只 在 单个 变量 acc 中 。 


1 /* 2 x 1 loop unrolling */ 
2 void combine5(vec_ptr v, data_t *dest) 








3 所 

4 long i; 

5 long length = vec_length(v); 

6 long limit = length-1; 

7 data_t *data = get_vec_start(v) ; 

8 data_t acc = IDENT; 

9 

10 /* Combine 2 elements at a time */ 
新 for (i = 0; i < limit; i+=2) { 

12 acc = (acc OP data[i]) OP data[i+1]; 
13 } 

14 

15 /* Finish any remaining elements */ 
16 for (; i < length; i++) { 

17 acc = acc OP data[i]; 

18 } 

19 *dest = acc; 





图 5-16 使 用 2X1 循环 展开 。 这 种 变换 能 减 小 循环 开销 的 影响 


ES 练习 题 5. 7 修改 combine5 的 代码 ， 展 开 循环 k= 二 5 次 。 
当 测 量 展开 次 数 上 二 2(combine5) 和 = 二 3 的 展开 代码 的 性 能 时 ， 得 到 下 面 的 结果 : 


















combined 





combine5 条 二 5. 01 

3.01 5. 01 
延迟 界限 3. 00 5. 00 
否 吐 量 界限 1..06 0.50 














， 我 们 看 到 对 于 整数 加 法 ，CPE 有 所 改进 ， 得 到 的 延迟 界限 为 1.00。 会 有 这 样 的 结果 
是 得 益 于 减少 了 循环 开销 操作 。 相 对 于 计算 向 量 和 所 需要 的 加 法 数量 ， 降 低 开销 操作 的 数 
量 ， 此 时 ， 整 数 加 法 的 一 个 周期 的 延迟 成 为 了 限制 性 能 的 因素 。 另 一 方面 ， 其 他 情况 并 没 
有 性 能 提高 一 一 它们 已 经 达到 了 其 延迟 界限 。 图 5-17 给 出 了 当 循 环 展开 到 10 次 时 的 CPE 
测量 值 。 对 于 展开 2 次 和 3 次 时 观察 到 的 趋势 还 在 继续 一 一 没有 一 个 低 于 其 延迟 界限 。 

要 理解 为 什么 kX1 循环 展开 不 能 将 性 能 改进 到 超过 延迟 界限 ， 让 我 们 来 查看 一 下 4 一 
2 时 ，combine5 内 循环 的 机 器 级 代码 。 当 类 型 data t 为 double， 操 作为 乘法 时 ， 生 成 
如 下 代码 

Tnner loop of combine5. data_t = double, OP = * 
3 nl Vradxs data Wraxs imit tn Xrbp; aec 2 Xnini0 

1 ;35 : loop: 

2 vmulsd (%rax,%rdx,8), %xmm0, %xmmO Multiply acc by data[i] 

3 vmulsd 8(%rax,%rdx,8), hxmmO0, %xmmO Multiply acc by data[i+1] 











4 addq $2, %rdx Increment i by 2 
5 cmpq %rdx, %rbp Compare to limit:i 
6 jg . 工 35 If >, goto loop 

6 

a re rp 


一 时 一 double + 
一 本 一 一 一 了 一 一 一 入 一 一 一 一 点 一 墨 一 里 条 一 jong 于 


> long+ 
2 





4 —@— double * 
3 


CPE 





展开 次 数 K 
图 5-17 不 同 程 度 k&X1 循环 展开 的 CPE 性 能 。 这 种 变换 只 改进 了 整数 加 法 的 性 能 


我 们 可 以 看 到 ， 相 比 combine4 生成 的 基于 指针 的 代码 ，GCC 使 用 了 C 代码 中 数组 引 
用 的 更 加 直接 的 转换 3 。 循 环 索引 i 在 寄存 器 $rdx 中 ，data 的 地 址 在 寄存 器 srax 中 。 和 
前 面 一 样 ， 累 积 值 acc 在 向 量 寄存 器 $xmm0 中 。 循 环 展 开会 导致 两 条 vmulsd 指令 一 一 一 
条 将 data[i] 加 到 acc 上， 第 二 条 将 data[i+ 1] 加 到 acc 上 。 图 5-18 给 出 了 这 段 代 码 的 
图 形 化 表示 。 每 条 vmulsd 指令 被 翻译 成 两 个 操作 : 一 个 操作 是 从 内 存 中 加 载 一 个 数组 元 
素 ， 另 一 个 是 把 这 个 值 乘 以 已 有 的 累积 值 。 这 里 我 们 看 到 ， 循 环 的 每 次 执行 中 ， 对 寄存 
器 sxmm0 读 和 写 两 次 。 可 以 重新 排列 、 简 化 和 抽象 这 张 图 ， 按 照 图 5-19a 所 示 的 过 程 得 到 
图 5-19b 所 示 的 模板 。 然 后 ， 把 这 个 模板 复制 n/2 次 ， 给 出 一 个 长 度 为 n 的 向 量 的 计算 ， 
得 到 如 图 5-20 所 示 的 数据 流 表示 。 在 此 我 们 看 到 ， 这 张 图 中 关键 路 径 还 是 nn 个 mul 操 
作 一 一 迭代 次 数 减 半 了 ， 但 是 每 次 迭代 中 还 是 有 两 个 顺序 的 乘法 操作 。 这 个 关键 路 径 是 特 
环 没有 展开 代码 的 性 能 制约 因素 ， 而 它 仍 然 是 &X1 循环 展开 代码 的 性 能 制约 因素 。 








vmulsd (Srax,$Srdx,8), Sxmm0, SxmmO 


vmulsd 8(S$rax,Srdx,8), %xmm0, %xmmO0 


addqg $2,%rdx 
Cmpq Srdx, Srbp 


jg loop 





图 5-18 ”combine5 内 循环 代码 的 图 形 化 表示 。 每 次 迭代 有 两 条 vmulsd 指令 ， 
每 条 指令 被 翻译 成 一 个 load 和 一 个 mul 操作 





日 ” GCC 优化 器 产生 一 个 函数 的 多 个 版 本 ， 并 从 中 选择 它 预测 会 获得 最 佳 性 能 和 最 小 代码 量 的 那 一 个 。 其 结果 
就 是 ， 源 代码 中 微小 的 变化 就 会 生成 各 种 不 同形 式 的 机 器 码 。 我 们 已 经 发 现 对 基于 指针 和 基于 数组 的 代码 
的 选择 不 会 影响 在 参考 机 上 运行 的 程序 的 性 能 。 
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关键 路 径 
SX 
data[0] aa | 
EE 
Gata[1j aa | 
[| 
dataf[21] ma | 
Em | 
天 未， 给 出 连 读 渤 代 之 同 的 织 民 浊 关 ais .| 国有 
有 
dataf[n-2] | oad | 


Em data[n-i] 


b) 每 次 迭代 必须 顺序 地 执行 两 个 乘法 


图 5-19 将 combine5 的 操作 抽象 成 图 5-20 ”combine5 对 一 个 长 度 为 的 向 量 进行 操作 的 数据 流 
数据 流 图 表示 。 虽 然 循环 展开 了 2 次 ,但 是 关键 路 径 上 还 是 有 


n 个 mul 操作 
旁 注 让 编译 器 展开 循环 
编译 器 可 以 很 容易 地 执行 循环 展开 。 只 要 优化 级 别 设置 得 足够 高 ， 许 多 编译 器 都 能 
例行公事 地 做 到 这 一 点 。 用 优化 等 级 3 或 更 高 等 级 调用 GCC， 它 就 会 执行 循环 展开 。 


add 





5.9 提高 并 行 性 

在 此 ， 程 序 的 性 能 是 受 运算 单元 的 延迟 限制 的 。 不 过 ， 正 如 我 们 表明 的 ， 执 行 加 法 和 乘 
法 的 功能 单元 是 完全 流水 线 化 的 ， 这 意味 着 它们 可 以 每 个 时 钟 周期 开始 一 个 新 操作 ， 并 且 有 
些 操作 可 以 被 多 个 功能 单元 执行 。 硬 件 具 有 以 更 高 速率 执行 乘法 和 加 法 的 潜力 ， 但 是 代码 不 
能 利用 这 种 能 力 ， 即 使 是 使 用 循环 展开 也 不 能 ， 这 是 因为 我 们 将 累积 值 放 在 一 个 单独 的 变量 
acc 中 。 在 前 面 的 计算 完成 之 前 ， 都 不 能 计算 acc 的 新 值 。 虽 然 计算 acc 新 值 的 功能 单元 能 











够 每 个 时 钟 周期 开始 一 个 新 的 操作 ， 但 是 它 只 会 每 工 个 周期 开始 一 条 新 操作 ， 这 里 工 是 合并 
操作 的 延迟 。 现 在 我 们 要 考察 打破 这 种 顺序 相关 ， 得 到 比 延迟 界限 更 好 性 能 的 方法 。 


5.9.1 多 个 累积 变量 

对 于 一 个 可 结合 和 可 交换 的 合并 运算 来 说 ， 比 如 说 整数 加 法 或 乘法 ， 我 们 可 以 通过 将 
一 组 合并 运算 分 割 成 两 个 或 更 多 的 部 分 ， 并 在 最 后 合并 结果 来 提高 性 能 。 例 如 ，P, 表示 
元 素 os 人 a,-1 的 乘积 : 


/* 2 x 2 loop unrolling */ 





nl 1 
PS Ile: 2 void combine6(vec_ptr v, data_t *dest) 
i=0 3 x 
P,= 二 PE, X PO,， 这 里 PE, 是 索引 值 5 long length = vec_length(v); 
为 偶数 的 元 素 的 乘积 ， 而 PO, 是 索引 6 long limit = length-1; 
; data_t *data = get_vec_start(v); 
0 8 data_t accO0 = IDENT; 
7 9 data accl = IDENT; 
PPE. Es [as 10 
| | /* Combine 2 elements at a time */ 
PO, = [| as 说 for (i = 0; i < limit; i+=2) { 
加 和 1 acc0 = acc0 OP data[i]; 
图 5-21 展示 的 是 使 用 这 种 方法 的 代 | 14 accl = accl OP data[i+1]; 
码 。 它 既 使 用 了 两 次 循环 展开 ， 以 使 每 “|15 
次 迭代 合并 更 多 的 元 素 ， 也 使 用 了 两 路 二 ia 
Pie a a ini y remainin, ments 
并 行将 索引 值 为 偶数 的 元 素 累积 在 变 | ?or OO 2 en 2 人 
量 acc0 中 ， 而 索引 值 为 奇数 的 元 素 累积 |19 acc0 = acc0 OP data[i]; 
在 变量 accl 中 。 因 此 ,我 们 将 其 称 为 | 20 出 
“2X2 循环 展开 ”。 同 前 面 一 样 ， 我 们 还 21 *dest = accO OP accl; 





包括 了 第 二 个 循环 ， 对 于 向 量 长 度 不 为 2 
的 倍数 时 ， 这 个 循环 要 累积 所 有 剩 下 的 数 图 5-21 运用 2X2 循环 展开 。 通过 维护 多 个 累积 变量 ， 


























组 元 素 。 然 后 ， 我 们 对 acc0 和 accl 应 用 这 种 方法 利用 了 多 个 功能 单元 以 及 它们 的 流水 线 
合并 运算 ， 计 算 最 终 的 结果 。 能 
比较 只 做 循环 展开 和 既 做 循环 展开 同时 也 使 用 两 路 并 行 这 两 种 方法 ， 我 们 得 到 下 面 的 
性 能 : 
i 本 | 整数 浮 点 数 
十 x 下 % 
combine4 在 临时 变量 中 累积 1. 27 3. 01 3,01 5.01 | 
combine5 2X1 展开 0 S501 $01 5.01 
combine6 2X2 展开 0. 81 1.51 1.51 2.51 
延迟 界限 1. 00 3. 00 3. 00 5. 00 
吞吐 量 界限 0.50 1.00 1. 00 0. 50 | 





我 们 看 到 所 有 情况 都 得 到 了 改进 ， 整 数 乘 、 浮 点 加 、 浮 点 乘 改进 了 约 2 倍 ， 而 整数 加 
也 有 所 改进 。 最 棒 的 是 ， 我 们 打破 了 由 延迟 界限 设 下 的 限制 。 处 理 器 不 再 需要 延迟 一 个 加 
法 或 乘法 操作 以 待 前 一 个 操作 完成 。 

要 理解 combine6 的 性 能 ， 我 们 从 图 5-22 所 示 的 代码 和 操作 序列 开始 。 通 过 图 5-23 
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所 示 的 过 程 ， 可 以 推导 出 一 个 模板 ， 给 出 迭代 之 间 的 数据 相关 。 同 combine5 一 样 ， 这 个 
内 循环 包括 两 个 vmulsd 运算 ， 但 是 这 些 指 令 被 翻译 成 读 写 不 同 寄存 器 的 mul 操作 ， 它 们 
之 间 没 有 数据 相关 (图 5-23b) 。 然 后 ， 把 这 个 模板 复制 n/2 次 (图 5-24) ， 就 是 在 一 个 长 度 
为 对 的 向 量 上 执行 这 个 函数 的 模型 。 可 以 看 到 ， 现 在 有 两 条 关键 路 径 ， 一 条 对 应 于 计算 索 
引 为 偶数 的 元 素 的 乘积 (程序 值 acc0) ， 另 一 条 对 应 于 计算 索引 为 奇数 的 元 素 的 乘积 (程序 
值 acc1) 。 每 条 关键 路 径 只 包含 n/2 个 操作 ， 因 此 导致 CPE 大 约 为 5. 00/2 王 2. 50。 相 似 
的 分 析 可 以 解释 我 们 观察 到 的 对 于 不 同 的 数据 类 型 和 合并 运算 的 组 合 ， 延 迟 为 工 的 操作 的 
CPE 等 于 L/2。 实 际 上 ， 程 序 正 在 利用 功能 单元 的 流水 线 能 力 ， 将 利用 率 提高 到 2 倍 。 唯 
一 的 例外 是 整数 加 。 我 们 已 将 将 CPE 降低 到 1.0 以 下 ,但 是 还 是 有 太 多 的 循环 开销 ， 而 
无 法 达到 理论 界限 0. 50。 





vmulsd (%rax,$Srdx,8), ®%xmm0, %®xmmO0 


vmulsd 8(%rax,%rdx,8), %xmml, %xmml 


addq $2,%rdx 
Cmpq %rdx,%rbp 


jg Leop 


图 5-22 combine6 内 循环 代码 的 图 形 化 表示 。 每 次 循环 有 两 条 vmulsd 指令 ， 每 条 指令 被 翻 
译 成 一 个 1oad 和 一 个 mul 操作 

我 们 可 以 将 多 个 累积 变量 变换 归纳 为 将 循环 展开 次 ,以 及 并 行 累积 & 个 值 ， 得 到 
kXk 循环 展开 。 图 5-25 显示 了 当 数 值 达到 有 = 二 10 时 ， 应 用 这 种 变换 的 效果 。 可 以 看 到 ， 
当 值 足够 大 时 ， 程 序 在 所 有 情况 下 几乎 都 能 达到 吞吐 量 界限 。 整 数 加 在 有 ==7 时 达到 的 
CPE 为 0. 54， 接 近 由 两 个 加 载 单元 导致 的 吞吐 量 界限 0.50。 整 数 乘 和 浮 点 加 在 & 之 3 时 达 
到 的 CPE 为 1. 01， 接 近 由 它们 的 功能 单元 设置 的 吞吐 量 界限 1. 00。 浮 点 乘 在 & 之 10 时 达 
到 的 CPE 为 0.51， 接 近 由 两 个 浮 点 乘法 器 和 两 个 加 载 单 元 设置 的 吞吐 量 界限 0.50。 值 得 
注意 的 是 ， 即 使 乘法 是 更 加 复杂 的 操作 ， 我 们 的 代码 在 浮 点 乘 上 达到 的 吞吐 量 几 乎 是 浮 点 
加 可 以 达到 的 两 倍 。 

通常 ， 只 有 保持 能 够 执行 该 操作 的 所 有 功能 单元 的 流水 线 都 是 满 的 ， 程 序 才 能 达到 这 
个 操作 的 吞吐 量 界限 。 对 延迟 为 工 ， 容 量 为 C 的 操作 而 言 ， 这 就 要 求 循环 展开 因子 k 写 
C ' 工 。 比 如 ， 浮 点 乘 有 C=2, L= 二 5,， 循环 展开 因子 就 必须 为 k 宇 10。 浮 点 加 有 C=1， 
L=3， 则 在 & 之 3 时 达到 最 大 吞吐 量 。 

在 执行 kX&k 循环 展开 变换 时 ， 我 们 必须 考虑 是 否 要 保留 原始 函数 的 功能 。 在 第 2 章 
已 经 看 到 ， 补 码 运算 是 可 交换 和 可 结合 的 ， 甚 至 是 当 溢出 时 也 是 如 此 。 因 此 ， 对 于 整数 数 
据 类 型 ， 在 所 有 可 能 的 情况 下 ，combine6 计算 出 的 结果 都 和 combine5 计算 出 的 相同 。 
因此 ， 优 化 编译 器 潜在 地 能 够 将 combine4 中 所 示 的 代码 首先 转换 成 combine5 的 二 路 循 
环 展开 的 版 本 ， 然 后 再 通过 引入 并 行 性 ， 将 之 转换 成 combine6 的 版 本 。 有 些 编译 器 可 以 
做 这 种 或 与 之 类 似 的 变换 来 提高 整数 数据 的 性 能 。 





data[0] 


data[1] 





data[{[2] 
a ) 重新 排列 、 简 化 和 抽象 图 5-22 的 表示 ， 
给 出 连续 迁 代 之 间 的 数据 相关 人 





| 




















data[n-1] 
b ) 两 个 mul 操 作 之 间 没 有 相关 
图 5-23 将 combine6 的 运算 图 5-24 combine6 对 一 个 长 度 为 n 的 向 量 进行 操作 的 
抽象 成 数据 流 图 数据 流 表示 。 现 在 有 两 条 关键 路 径 ， 每 条 关 
键 路 径 包 含 n/2 个 操作 
6 i 
5 
4 —0— double * 
落 一 时 一 double + 
名 3 —A— long * 
long + 
l 法 
0 一 T T 人 下 | 
1 2 Ee 5 6 肥 8 9 10 
展开 次 数 K 
图 5-25 &XA 循 环 展开 的 CPE 性 能 。 使 用 这 种 变换 后 ， 所 有 的 CPE 都 有 所 


改进 ， 接 近 或 达到 其 吞吐 量 界限 


另 一 方面 ， 泽 点 乘法 和 加 法 不 是 可 结合 的 。 因 此 ， 由 于 四 含 五 人 或 溢出 ，combine5 
和 combine6 可 能 产生 不 同 的 结果 。 例 如 ， 假 想 这 样 一 种 情况 ， 所 有 索引 值 为 偶数 的 元 素 
都 是 绝对 值 非常 大 的 数 ， 而 索引 值 为 奇数 的 元 素 都 非常 接近 于 0.0。 那 么 ， 即 使 最 终 的 乘 
积 P; 不 会 溢出 ， 乘 积 PE, 也 可 能 上 溢 ， 或 者 PO, 也 可 能 下 溢 。 不 过 在 大 多 数 现实 的 程序 
中 ， 不 太 可 能 出 现 这 样 的 情况 。 因 为 大 多 数 物理 现象 是 连续 的 ， 所 以 数值 数据 也 趋向 于 相 
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当 平 渭 ， 不 会 出 什么 问题 。 即 使 有 不 连续 的 时 候 ， 它 们 通常 也 不 会 导致 前 面 描述 的 条 件 那 
样 的 周期 性 模式 。 按 照 严 格 顺序 对 元 素 求 积 的 准确 性 不 太 可 能 从 根本 上 比 “分 成 两 组 独立 
求 积 ， 然 后 再 将 这 两 个 积 相 乘 ”更 好 。 对 大 多 数 应 用 程序 来 说 ， 使 性 能 翻 倍 要 比 冒 对 奇怪 
的 数据 模式 产生 不 同 的 结果 的 风险 更 重要 。 但 是 ， 程 序 开发 人 员 应 该 与 潜在 的 用 户 协商 ， 
看 看 是 否 有 特殊 的 条 件 ， 可 能 会 导致 修改 后 的 算法 不 能 接受 。 大 多 数 编译 器 并 不 会 尝试 对 
浮 点 数 代码 进行 这 种 变换 ， 因 为 它们 没有 办 法 判断 引入 这 种 会 改变 程序 行为 的 转换 所 带 来 
的 风险 ， 不 论 这 种 改变 是 多 么 小 。 


5.9.2 重新 结合 变 


现在 来 探讨 另 一 种 打破 顺序 相关 从 而 使 性 能 提高 到 延迟 界限 之 外 的 方法 。 我 们 看 到 过 
做 kX1 循环 展开 的 combine5 没有 改变 合并 向 量 元 素 形 成 和 或 者 乘积 中 执行 的 操作 。 不 
.过 ， 对 代码 做 很 小 的 改动 ， 我 们 可 以 从 根本 上 改变 合并 执行 的 方式 ， 也 极 大 地 提高 程序 的 
性 能 。 

图 5-26 给 出 了 一 个 函数 combine7， 它 与 combine5 的 展开 代码 (图 5-16) 的 唯一 区 别 
在 于 内 循环 中 元 素 合 并 的 方式 。 在 combine5 中 ， 合 并 是 以 下 面 这 条 语句 来 实现 的 


12 acc = (acc OP data{[i]) OP data[i+1]; 
而 在 combine7 中 ， 合 并 是 以 这 条 语句 来 实现 的 
入 acc = acc OP (data[i] OP data[i+1]); 


差别 仅 在 于 两 个 括号 是 如 何 放 置 的 。 我 们 称 之 为 重新 结合 变换 (reassociation transforma- 
tion) ， 因 为 括号 改变 了 向 量 元 素 与 累积 值 acc 的 合并 顺序 ， 产 生 了 我 们 称 为 “2X1la” 的 
循环 展开 形式 。 





/* 2 x la loop unrolling */ 





1 

2 void combine7(vec_ptr v, data_t *dest) 
9 

4 Tong Bi; 

5 long length = vec_length(v); 

6 long limit = length-1; 

2 data_t *data = get_vec_start(v); 

8 data_t acc = IDENT; 

9 

10 /* Combine 2 elements at a time */ 
攀 for (i = 0; i < limit; i+=2) { 

12 acc = acc OP (data[i] OP data[i+l] ) ; 
13 此 

14 

15 /* Finish any remaining elements */ 
16 tor (sy 1 < Tenptiy Tt+) 蒜 

1 acc = acc OP data[i] ; 

18 } 

19 *dest = acc; 

20 











图 5-26 运用 2Xle 循 环 展开 ， 重 新 结合 合并 操作 。 这 种 方法 增加 了 可 以 并 行 执行 的 操作 数量 
对 于 未 经 训练 的 人 来 说 ， 这 两 个 语句 可 能 看 上 去 本 质 上 是 一 样 的 ， 但 是 当 我 们 测量 








CPE 的 时 候 ， 得 到 令 人 吃惊 的 结果 ; 


广 




















整数 浮 点 数 
函数 方法 
i x 十 x 

combine4 累积 在 临时 变量 中 时 2 3.01 3.01 5.01 
combine5 2X1 展开 1.01 3. 01 3.01 5.01 
combine6 2X2 展开 0. 81 1.51 1.51 2.51 
combine7 2X1a 展开 i; 1; 51 1.51 51 
延迟 界限 1. 00 3. 00 3. 00 5. 00 
吞吐 量 界限 0. 50 1.00 1. 00 0. 50 | 

















整数 加 的 性 能 几乎 与 使 用 &X1 展开 的 版 本 (combine5) 的 性 能 相同 ， 而 其 他 三 种 情况 
则 与 使 用 并 行 累 积 变量 的 版 本 Ccombine6) 相 同 ， 是 &X1l 扩展 的 性 能 的 两 倍 。 这 些 情况 已 
经 突破 了 延迟 界限 造成 的 限制 。 

图 5-27 说 明了 combine7 内 循环 的 代码 (对 于 合并 操作 为 乘法 ， 数 据 类 型 为 double 
的 情况 ) 是 如 何 被 译 码 成 操作 ， 以 及 由 此 得 到 的 数据 相关 。 我 们 看 到 ， 来 自 于 vmovsd 和 
第 一 个 vmulsd 指令 的 10ad 操作 从 内 存 中 加 载 向 量 元 素 i 和 i 十 1， 第 一 个 mul 操作 把 它 
们 乘 起 来 。 然 后 ， 第 二 个 mul 操作 把 这 个 结果 乘 以 累积 值 acc。 图 5-28a 给 出 了 我 们 如 何 
对 图 5-27 的 操作 进行 重新 排列 、 优 化 和 抽象 ， 得 到 表示 一 次 迭代 中 数据 相关 的 模板 (图 5 
28b)。 对 于 combine5 和 combine7 的 模板 ， 有 两 个 1oad 和 两 个 mul 操作 ,但 是 只 有 一 个 
mul 操作 形成 了 循环 寄存 器 间 的 数据 相关 链 。 然 后 ， 把 这 个 模板 复制 n/2 次 ， 给 出 了 个 
向 量 元 素 相 乘 所 执行 的 计算 (图 5-29)， 我 们 可 以 看 到 关键 路 径 上 只 有 zV2 个 操作 。 每 次 送 
代 内 的 第 一 个 乘法 都 不 需要 等 待 前 一 次 迭代 的 累积 值 就 可 以 执行 。 因 此 ， 最 小 可 能 的 CPE 
减少 了 2 倍 。 





vmovsd (Srax,%rdx,8), %xmmO0 


| vmovsd 8(%rax, Srdx,8), %xmm0, %xmm0 


vmovsd %xmm0, %Sxmml, %xmml 
addq $2,%rdx 
cmpq %rdx,®%rbp 


jg loop 


图 5-27 ”combine7 内 循环 代码 的 图 形 化 表示 。 每 次 迭代 被 译 码 成 与 combine5 或 
combine6 类似 的 操作 ， 但 是 数据 相关 不 同 
图 5-30 展示 了 当 数 值 达 到 & 王 10 时 ， 实 现 kX1a 循环 展开 并 重新 结合 变换 的 效果 。 可 
以 看 到 ， 这 种 变换 带 来 的 性 能 结果 与 Xk 循环 展开 中 保持 & 个 累积 变量 的 结果 相似 。 对 
所 有 的 情况 来 说 ， 我 们 都 接近 了 由 功能 单元 造成 的 吞吐 量 界限 。 
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关键 路 径 


data[l0] 


data[l1] 


data[l2] 





a ) 重新 排列 、 简 化 和 抽象 图 5-27 的 表示 ， 
给 出 连续 迭代 之 间 的 数据 相关 Sa 





data[n-2] 


data[n-1] 





b) 上 面 的 mul 操 作 让 两 个 二 向 量 元 素 相 乘 ， 而 
下 面 的 mul 操 作 将 前 面 的 结果 乘 以 循环 变量 acc 











图 5-28 将 combine7 的 操作 图 5-29 ”combine7 对 一 个 长 度 为 n 的 向 量 进行 操作 的 数 
抽象 成 数据 流 图 据 流 表示 。 我 们 只 有 一 条 关键 路 径 ， 它 只 包含 
n/2 个 操作 
6 
SS 
4 一 4 一 double*# 
四 一 县 -一 double + 
名 3 一 在 一 long * 
2 long+ 
1 
0 











展开 次 数 丰 


图 5-30 kX1a 循环 展开 的 CPE 性 能 。 在 这 种 变换 下 ， 所 有 的 CPE 都 有 所 
改进 ， 几 乎 达到 了 它们 的 吞吐 量 界限 


在 执行 重新 结合 变换 时 ， 我 们 又 一 次 改变 向 量 元 素 合并 的 顺序 。 对 于 整数 加 法 和 乘 
法 ， 这 些 运算 是 可 结合 的 ， 这 表示 这 种 重新 变换 顺序 对 结果 没有 影响 。 对 于 浮 点 数 情况 ， 
必须 再 次 评估 这 种 重新 结合 是 否 有 可 能 严重 影响 结果 。 我 们 会 说 对 大 多 数 应 用 来 说 ， 这 种 
差别 不 重要 。 





总 的 来 说 ， 重 新 结合 变换 能 够 减少 计算 中 关键 路 径 上 操作 的 数量 ， 通 过 更 好 地 利用 功能 
单元 的 流水 线 能 力 得 到 更 好 的 性 能 。 大 多 数 编译 器 不 会 尝试 对 浮 点 运算 做 重新 结合 ， 因 为 这 
些 运 算 不 保证 是 可 结合 的 。 当 前 的 GCC 版 本 会 对 整数 运算 执行 重新 结合 ， 但 不 是 总 有 好 的 
效果 。 通 常 ， 我 们 发 现 循环 展开 和 并 行 地 累积 在 多 个 值 中 ， 是 提高 程序 性 能 的 更 可 靠 的 方法 。 
司令 练习 题 5.8 考虑 下 面 的 计算 一 个 双 精 度数 组 成 的 数组 乘积 的 函数 。 我 们 3 次 展开 这 

个 循环 。 | 

double aprod(double a[], long n) 

{ 

long i; 
double x, y, 2Z; 
double r = 1; 
for (i = 0; i < n-2; i+= 3) { 
x = a[i]; y = a[li+1]; z = a[i+2]; 
r*X*y* 2Z; /* Product computation */ 


工 

} 

for (; i < n; i++) 
r *= a[i]; 

return r; 


cm 


对 于 标记 为 Product computation 的 行 ， 可 以 用 括号 得 到 该 计算 的 五 种 不 同 的 
结合 ， 如 下 所 示 : 
((r * X) * y) * ZJ /* Al */ 
(r * (xX * y)) * Zi /* A2 */ 
Ir* ((xX * y) * 2Z); /* A3 */ 
r* (x * (y * 2)); /* A4 */ 
(r * xX) * (y * 2Z); /* A5 */ 


假设 在 一 台 浮 点 数 乘 法 延迟 为 5 个 时 钟 周 期 的 机 器 上 运行 这 些 函 数 。 确 定 由 乘法 的 数据 
相关 限定 的 CPE 的 下 界 。( 提 示 : 画 出 每 次 迭代 如 何 计 算 r 的 图 形 化 表示 会 所 帮助 。) 


计时 村 
IN | 





到 彩 : 姜 3 六 蔓 elWEsijyls 居 用 向 量 指令 达到 更 高 的 并 行 度 
就 像 在 3.1 节 中 讲述 的 ，Intel 在 1999 年 引入 了 SSE 指令 ，SSE 是 “Streaming 

SIMD Extensions( 流 SIMD 扩展 )” 的 缩写 ， 而 SIMD( 读 作 “sim-dee”) 是 “Single-In- 
struction，Multiple-Data( 单 指令 多 数据 )” 的 缩写 。SSE 功能 历经 几 代 ， 最 新 的 版 本 为 
高 级 向 量 扩展 (advanced vector extension) 或 AVX 。SIMD 执行 模型 是 用 单条 指令 对 整个 向 
量 数据 进行 操作 。 这 些 向 量 保存 在 一 组 特殊 的 向 量 寄 存 器 (vector register) 中 ， 名 字 为 % 

ymm0~ 一 Symm15。 目 前 的 AVX 向 量 寄存 器 长 为 32 字 节 ， 因 此 每 一 个 都 可 以 存放 8 个 32 位 数 
或 4 个 64 位 数 ， 这 些 数据 既 可 以 是 整数 也 可 以 是 浮 点 数 。AVX 指令 可 以 对 这 些 寄存 器 执 
行 向 量 操作 ， 比 如 并 行 执行 8 组 数值 或 4 组 数值 的 加 法 或 乘法 。 例 如 ， 如 果 YIMM 寄存 
器 $ymm0 包含 8 个 单 精度 浮 点 数 ， 用 a ，…，ay 表示 ， 而 Srcx 包含 8 个 单 精度 浮 点 数 的 内 
存 地 址 ， 用 b。，…，br 表示 ， 那 么 指令 

vmulps (%rcx), %ymmO0, %ymml 


会 从 内 存 中 读 出 8 个 值 ， 并 行 地 执行 8 个 乘法 ， 计 算 a;<-a;。6b;，0 志 17， 并 将 得 到 的 
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8 个 乘积 保存 到 向 量 寄 存 器 symm1l1。 我 们 看 到 ， 一 条 指令 能 够 产生 对 多 个 数据 值 的 计算 ， 
因此 称 为 “SIMD”。 

GCC 支持 对 C 语言 的 扩展 ， 能 够 让 程序 员 在 程序 中 使 用 向 量 操作 ， 这 些 操作 能 够 
被 编译 成 AVX 的 向 量 指令 (以 及 基于 早 前 的 SSE 指令 的 代码 ) 。 这 种 代码 风格 比 直接 用 
汇编 语言 写 代 码 要 好 ， 因 为 GCC 还 可 以 为 其 他 处 理 器 上 的 向 量 指令 产生 代码 。 

使 用 GCC 指令 、 循 环 展 开 和 多 个 累积 变量 的 组 合 ， 我 们 的 合并 函数 能 够 达到 下 面 的 性 能 : 





























整数 浮 点 数 
方法 nt long long int 
十 x .十 x 十 x -| 十 x 
标量 10X10 0.54 1.01 0.55 1.00 1.01 0.51 1.01 0. 52 
标量 吞吐 量 界 限 0. 50 1.00 0. 50 1.00 1.00 0. 50 1.00 0. 50 
向 量 8X8 0.05 0. 24 0. 13 1 0. 12 0. 08 0. 25 0. 16 
向 量 吞 吐 量 界限 0. 06 0. 12 0. 12 0. 12 0. 06 0. 25 0. 12 








上 表 中 ， 第 一 组 数字 对 应 的 是 按照 combine6 的 风格 编写 的 传统 标量 代码 ， 循 环 展 开 因 
子 为 10， 并 维护 10 个 累积 变量 。 第 二 组 数字 对 应 的 代码 编写 形式 可 以 被 GCC 编译 成 
AVX 向 量 代码 。 除 了 使 用 向 量 操作 外 ， 这 个 版 本 也 进行 了 循环 展开 ， 展 开 因 子 为 8， 并 
维护 8 个 不 同 的 向 量 累 积 变量 。 我 们 给 出 了 32 位 和 64 位 数字 的 结果 ， 因 为 向 量 指令 在 
第 一 种 情况 中 达到 8 路 并 行 ， 而 在 第 二 种 情况 中 只 能 达到 4 路 并 行 。 

可 以 看 到 ， 向 量 代码 在 32 位 的 4 种 情况 下 几乎 都 获得 了 8 倍 的 提升 ， 对 于 64 位 来 
说 ， 在 其 中 的 3 种 情况 下 获得 了 4 倍 的 提升 。 只 有 长 整数 乘法 代码 在 我 们 尝试 将 其 表示 
为 向 量 代码 时 性 能 不 佳 。AVX 指令 集 不 包括 64 位 整数 的 并 行 乘法 指令 ， 因 此 GCC 无 
法 为 此 种 情况 生成 向 量 代码 。 使 用 向 量 指 令 对 合并 操作 产生 了 新 的 吞吐 量 界限 。 与 标量 
界限 相 比 ，32 位 操作 的 新 界限 小 了 8 倍 ，64 位 操作 的 新 界限 小 了 4 倍 。 我 们 的 代码 在 
几 种 数据 类 型 和 操作 的 组 合 上 接近 了 这 些 界限 。 


5.10 优化 合并 代码 的 结果 小 结 
我 们 极 大 化 对 向 量 元 素 加 或 者 乘 的 函数 性 能 的 努力 获得 了 成 功 。 下 表 总 结 了 对 于 标量 
代码 所 获得 的 结果 ， 没 有 使 用 AVX 向 量 指令 提供 的 向 量 并 行 性 ; 























整数 浮 点 数 
3 本 关 方法 回忆 x 十 x 
combinel | 抽象 -Ol 10. 12 IQ 12 0 17 11. 14 
combine6 2X2 循环 展开 0. 81 天 1. 仁 2 1 
10X10 循环 展开 0. 55 1.00 ji 0. 52 
延迟 界限 1. 00 3. 00 3. 00 5. 00 
否 吐 量 界限 0.50 1. 00 1. 00 0. 50 











使 用 多 项 优化 技术 ， 我 们 获得 的 CPE 已 经 接近 于 0.50 和 1. 00 的 吞吐 量 界限 ， 只 受 
限于 功能 单元 的 容量 。 与 原始 代码 相 比 提升 了 10 一 20 倍 ， 且 使 用 普通 的 C 代码 和 标准 编 
译 器 就 获得 了 所 有 这 些 改 进 。 重 写 代 码 利 用 较 新 的 SIMD 指令 得 到 了 将 近 4 倍 或 8 倍 的 性 
”能 提升 。 比 如 单 精度 乘法 ，CPE 从 初 值 11. 14 降 到 了 0.06， 整 体 性 能 提升 超过 180 倍 。 
”这 个 例子 说 明 现 代 处 理 器 有 具有 相当 的 计算 能 力 ， 但 是 我 们 可 能 需要 按 非 常 程式 化 的 方式 来 
编写 程序 以 便 将 这 些 能 力 诱发 出 来 。 














5. 11 一 些 限 制 因素 

我 们 已 经 看 到 在 一 个 程序 的 数据 流 图 表示 中 ， 关 键 路 径 指明 了 执行 该 程序 所 需 时 间 的 
一 个 基本 的 下 界 。 也 就 是 说 ， 如 果 程 序 中 有 某 条 数据 相关 链 ， 这 条 链 上 的 所 有 延迟 之 和 等 
于 人工， 那么 这 个 程序 至 少 需要 下 个 周期 才能 执行 完 。 

我 们 还 看 到 功能 单元 的 吞吐 量 界限 也 是 程序 执行 时 间 的 一 个 下 界 。 也 就 是 说 ， 假 设 一 
个 程序 一 共 需 要 N 个 某 种 运算 的 计算 ， 而 微 处 理 器 只 有 C 个 能 执行 这 个 操作 的 功能 单元 ， 
并 且 这 些 单元 的 发 射 时 间 为 T。 那 么 ， 这 个 程序 的 执行 至 少 需要 N ,TI/C 个 周期 。 

在 本 节 中 ， 我 们 会 考虑 其 他 一 些 制约 程序 在 实际 机 器 上 性 能 的 因素 。 


5. 11.1 寄存 器 溢出 

循环 并 行 性 的 好 处 受 汇 编 代 码 描述 计算 的 能 力 限 制 。 如 果 我 们 的 并 行 度 p 超过 了 可 用 
的 寄存 器 数量 ， 那 么 编译 器 会 诉 诸 溢 出 (spilling)， 将 某 些 临时 值 存放 到 内 存 中 ， 通 常 是 在 
运行 时 堆栈 上 分 配 空间 。 举 个 例子 ， 将 combine6 的 多 累积 变量 模式 扩展 到 有 二 10 和 %= 
20， 其 结果 的 比较 如 下 表 所 示 : 





combine6 








10X10 循环 展开 
20X20 循环 展开 





吞吐 量 界限 











我 们 可 以 看 到 对 这 种 循环 展开 程度 的 增加 没有 改善 CPE， 有 些 甚 至 还 变 差 了 。 现 代 
x86-64 处 理 器 有 16 个 寄存 器 ， 并 可 以 使 用 16 个 YMM 寄存 器 来 保存 浮 点 数 。 一 旦 循环 变 


量 的 数量 超过 了 可 用 寄存 器 的 数量 ， 程 序 就 必须 在 栈 上 分 配 一 些 变量 。 
例如 ， 下 面 的 代码 片段 展示 了 在 10X10 循环 展开 的 内 循环 中 ， 累 积 变量 acc0 是 如 何 
更 新 的 : 
Updating of accumulator accO in 10 x 10 urolling 
vmulsd (%rdx), %xmmO0, %xmmO acc0 *#= data[i] 
我 们 看 到 该 累积 变量 被 保存 在 寄存 器 sxmm0 中 ， 因 此 程序 可 以 简单 地 从 内 存 中 读 取 data 
[i]， 并 与 这 个 寄存 器 相 乘 。 
与 之 相 比 ，20X20 循环 展开 的 相应 部 分 非常 不 同 : 


Updating of accumulator acc0O in 20 x 20 unrolling 
vmovsd 40(%rsp), %xmmO 

vmulsd (%rdx), hxmmO0, %xmmO 

vmovsd ‘%xmm0, 40(%rsp) 


累积 变量 保存 为 栈 上 的 一 个 局 部 变量 ， 其 位 置 距离 栈 指针 偏 移 量 为 40。 程 序 必须 从 内 存 中 
读 取 两 个 数值 : 累积 变量 的 值 和 data[i] 的 值 ， 将 两 者 相 乘 后 ， 将 结果 保存 回 内 存 。 

一 且 编 译 峰 必须 要 诉 诸 寄存 器 溢出 ， 那 么 维护 多 个 累积 变量 的 优势 就 很 可 能 消失 。 幸 
运 的 是 ，x86-64 有 足够 多 的 寄存 器 ， 大 多 数 循环 在 出 现 寄存 器 溢出 之 前 就 将 达到 吞吐 量 
限制 。 
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5.11.2 分 支 预测 和 预测 错误 处 罚 


在 3. 6.6 节 中 通过 实验 证 明 ， 当 分 支 预测 逻辑 不 能 正确 预测 一 个 分 支 是 否 要 跳 转 的 时 
候 ， 条 件 分 支 可 能 会 招致 很 大 的 预测 错误 处 罚 。 既 然 我 们 已 经 学 习 到 了 一 些 关 于 处 理 器 是 
如 何 工作 的 知识 ， 就 能 理解 这 样 的 处 罚 是 从 哪里 产生 出 来 的 了 。 

现代 处 理 器 的 工作 远 超 前 于 当前 正在 执行 的 指令 ， 从 内 存 读 新 指令 ， 译 码 指令 ， 以 确 
定 在 什么 操作 数 上 执行 什么 操作 。 只 要 指令 遵循 的 是 一 种 简单 的 顺序 ， 那 么 这 种 指令 流水 
线 化 (instruction pipelining) 就 能 很 好 地 工作 。 当 遇 到 分 支 的 时 候 ， 处 理 器 必须 猜测 分 支 该 
往 哪 个 方向 走 。 对 于 条 件 转移 的 情况 ， 这 意味 着 要 预测 是 否 会 选择 分 支 。 对 于 像 间接 跳 转 
( 跳 转 到 由 一 个 跳 转 表 条 目 指定 的 地 址 ) 或 过 程 返回 这 样 的 指令 ， 这 意味 着 要 预测 目标 地 
址 。 在 这 里 ,我们 主要 讨论 条 件 分 支 。 

在 一 个 使 用 投机 执行 (speculative execution) 的 处 理 器 中 ， 处 理 器 会 开始 执行 预测 的 分 
支 目标 处 的 指令 。 它 会 避免 修改 任何 实际 的 寄存 器 或 内 存 位 置 ， 直 到 确定 了 实际 的 结果 。 
如 果 预 测 正确 ， 那 么 处 理 器 就 会 “提交 ”投机 执行 的 指令 的 结果 ， 把 它们 存储 到 寄存 器 或 
内 存 。 如 果 预 测 错误 ， 人 处 理 器 必须 丢弃 掉 所 有 投机 执行 的 结果 ， 在 正确 的 位 置 ， 重 新 开始 
取 指令 的 过 程 。 这 样 做 会 引起 预测 错误 处 罚 ， 因 为 在 产生 有 用 的 结果 之 前 ， 必 须 重新 填充 
指令 流水 线 。 

在 3. 6. 6 节 中 我 们 看 到 ， 最 近 的 x86 处 理 器 (包含 所 有 可 以 执行 x86-64 程序 的 处 理 
器 ) 有 条 件 传 送 指令 。 在 编译 条 件 语句 和 表达 式 的 时 候 ，GCC 能 产生 使 用 这 些 指令 的 代 
码 ， 而 不 是 更 传统 的 基于 控制 的 条 件 转移 的 实现 。 翻 译 成 条 件 传 送 的 基本 思想 是 计算 出 一 
个 条 件 表达 式 或 语句 两 个 方向 上 的 值 ， 然 后 用 条 件 传送 选择 期 望 的 值 。 在 4. 5. 7 节 中 我 们 
看 到 ， 条 件 传送 指令 可 以 被 实现 为 普通 指令 流水 线 化 处 理 的 一 部 分 。 没 有 必要 猜测 条 件 是 
否 满足 ， 因 此 猜测 错误 也 没有 处 罚 。 

那么 一 个 C 语言 程序 员 怎么 能 够 保证 分 支 预 测 处 罚 不 会 阻碍 程序 的 效率 呢 ? 对 于 参考 
机 来 说 ， 预 测 错 误 处 罚 是 19 个 时 钟 周期 ， 赌 注 很 高 。 对 于 这 个 问题 没有 简单 的 答案 ， 但 
是 下 面 的 通用 原则 是 可 用 的 。 

1. 不 要 过 分 关心 可 预测 的 分 支 

我 们 已 经 看 到 错误 的 分 支 预测 的 影响 可 能 非常 大 ， 但 是 这 并 不 意味 着 所 有 的 程序 分 支 
都 会 减缓 程序 的 执行 。 实 际 上 ， 现 代 处 理 器 中 的 分 支 预测 逻辑 非常 善于 辨别 不 同 的 分 支 指 
令 的 有 规律 的 模式 和 长 期 的 趋势 。 例 如 ， 在 合并 函数 中 结束 循环 的 分 支 通常 会 被 预测 为 选 
择 分 支 ， 因 此 只 在 最 后 一 次 会 导致 预测 错误 处 罚 。 

再 来 看 另 一 个 例子 ， 当 从 combine2 变化 到 combine3 时 ， 我 们 把 函数 get_vec ele- 
ment 从 函数 的 内 循环 中 拿 了 出 来 ， 考 虑 一 下 我 们 观察 到 的 结果 ， 如 下 所 示 : 











整数 | 浮 点 数 
函数 方法 
十 关 十 关 
combine2 移动 vec_length TO02 9.03 9. 02 11. 03 
combine3 直接 数据 访问 人 9. 02 9. 02 11. 03 





CPE 基本 上 没 变 ， 即 使 这 个 转变 消除 了 每 次 选 代 中 用 于 检查 向 量 索引 是 否 在 界限 内 的 两 个 
条 件 语句 。 对 这 个 函数 来 说 ， 这 些 检测 总 是 确定 索引 是 在 界 内 的 ， 所 以 是 高 度 可 预测 的 。 
作为 一 种 测试 边界 检查 对 性 能 影响 的 方法 ， 考 虑 下 面 的 合并 代码 ， 修 改 combine4 的 
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内 循环 ， 用 执行 get_vec_element 代码 的 内 联 函 数 结果 替换 对 数据 元 素 的 访问 。 我 们 称 
个 新 版 本 为 combine4b。 这 段 代码 执行 了 边界 检查 ， 还 通过 向 量 数据 结构 来 引用 向 量 
元 素 。 


/* Include bounds check in loop */ 


1 

2 void combine4b(vec_ptr v, data_t *dest) 
中 ”于 

4 long i; 

5 long length = vec_length(v); 

6 data_t acc = IDENT; 

7 

8 for (i = 0; i < length; i++) { 

9 if (i >= 0 && i < v->len) { 
10 acc = acc OP v->datal[i]; 
11 3 

12 小 

13 *dest = acc; 

14 3} 


， 我 们 直接 比较 使 用 和 不 使 用 边界 检查 的 函数 的 CPE: 








对 整数 加 法 来 说 ， 带 边界 检测 的 版 本 会 慢 一 点 ,但 对 其 他 三 种 情况 来 说 ， 性 能 是 一 样 的 ， 
这 些 情况 受 限于 它们 各 自 的 合并 操作 的 延迟 。 执 行 边界 检测 所 需 的 额外 计算 可 以 与 合并 操 
作 并 行 执 行 。 处 理 器 能 够 预测 这 些 分 支 的 结果 ， 所 以 这 些 求 值 都 不 会 对 形成 程序 执行 中 关 
键 路 径 的 指令 的 取 指 和 处 理 产生 太 大 的 影响 。 

2. 书写 适合 用 条 件 传送 实现 的 代码 

分 支 预 测 只 对 有 规律 的 模式 可 行 。 程 序 中 的 许多 测试 是 完全 不 可 预测 的 ， 依 赖 于 数据 
的 任意 特性 ， 例 如 一 个 数 是 负数 还 是 正 数 。 对 于 这 些 测 试 ， 分 支 预测 逻辑 会 处 理 得 很 精 
糕 。 对 于 本 质 上 无 法 预测 的 情况 ， 如 果 编 译 器 能 够 产生 使 用 条 件数 据 传送 而 不 是 使 用 条 件 
控制 转移 的 代码 ， 可 以 极 大 地 提高 程序 的 性 能 。 这 不 是 C 语言 程序 员 可 以 直接 控制 的 , 但 
是 有 些 表达 条 件 行为 的 方法 能 够 更 直接 地 被 翻译 成 条 件 传 送 ， 而 不 是 其 他 操作 。 

我 们 发 现 GCC 能 够 为 以 一 种 更 “功能 性 的 ”风格 书写 的 代码 产生 条 件 传送 ， 在 这 种 
风格 的 代码 中 ， 我 们 用 条 件 操作 来 计算 值 ， 然 后 用 这 些 值 来 更 新 程序 状态 ， 这 种 风格 对 立 
于 一 种 更 “命令 式 的 ”风格 ， 这 种 风格 中 ， 我 们 用 条 件 语句 来 有 选择 地 更 新 程序 状态 。 

这 两 种 风格 也 没有 严格 的 规则 ， 我 们 用 一 个 例子 来 说 明 。 假 设 给 定 两 个 整数 数组 a 和 
b， 对 于 每 个 位 置 i， 我 们 想 将 a[ 门 设置 为 a[ 让 和 b[ 门 中 较 小 的 那 一 个 ， 而 将 b[ 引 设置 为 
两 者 中 较 大 的 那 一 个 。 

用 命令 式 的 风格 实现 这 个 函数 是 检查 每 个 位 置 i?， 如 果 它 们 的 顺序 与 我 们 想 要 的 不 同 ， 
就 交换 两 个 元 素 : 

1 /* Rearrange two Vectors so that for each i, b[i] >= a[i] */ 


2 void minmaxi(long a[] long b[], long n) { 
3 long i; 
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4 for (i = 0; i < n; i++) { 
5 if (a[i] > b[i]) { 

6 long t = al[il]; 
a[i] = bfi]; 

8 B[i] 产 而; 

} 

10 } 

条 了 


在 随机 数据 上 测试 这 个 函数 ， 得 到 的 CPE 大 约 为 13. 50 ， 而 对 于 可 预测 的 数据 ，CPE 
为 2.5~3. 5， 其 预测 错误 惩罚 约 为 20 个 周期 。 

用 功能 式 的 风格 实现 这 个 函数 是 计算 每 个 位 置 i 的 最 大 值 和 最 小 值 ， 然 后 将 这 些 值 分 
别 赋 给 a[ 订 和 b[ij: 


/* Rearrange two vectors so that for each i, b[i] >= a[i] */ 
void minmax2(long a[], long b[], long n) { 
long i; 
For (i = Oy 1 my ljh) 
long min = a[li] < b[i] ? a[i] : b[i]; 
long max = a[i] < b[i] ? b[i] : a[i]; 
a[i] = min; 
b[i] = max; 


OO 0 PN OO Wm sw ND 一 


} 

对 这 个 函数 的 测试 表明 无 论 数据 是 任意 的 ， 还 是 可 预测 的 ，CPE 都 大 约 为 4.0。( 我 
们 还 检查 了 产生 的 汇编 代码 ， 确 认 它 确实 使 用 了 条 件 传送 。) 

在 3. 6. 6 节 中 讨论 过 ， 不 是 所 有 的 条 件 行为 都 能 用 条 件数 据 传 送 来 实现 ， 所 以 无 可 避 
免 地 在 某 些 情况 中 ， 程 序 员 不 能 避免 写 出 会 导致 条 件 分 支 的 代码 ， 而 对 于 这 些 条 件 分 支 ， 
处 理 回 用 分 支 预测 可 能 会 处 理 得 很 糟糕 。 但 是 ， 正 如 我 们 讲 过 的 ， 程 序 员 方面 用 一 点 点 聪 
明 ， 有 时 就 能 使 代码 更 容易 被 翻译 成 条 件数 据 传送 。 这 需要 一 些 试验 ， 写 出 函数 的 不 同 版 
本 ， 然 后 检查 产生 的 汇编 代码 ， 并 测试 性 能 。 

语 | 练习 题 5. 9 对 于 归并 排序 的 合并 步骤 的 传统 的 实现 需要 三 个 循环 [98]; 


1 void merge(long srcl[] long src2[] long dest[] long n) { 
六 long il = 0; 

3 long i2 = 0; 

4 long id = 0; 

5 while (il <n&& i2<n) 

6 if (srcl[it] < src2[i2]) 

ps dest[id++] = Srcl[i1++]; 
8 else 

9 dest[id++] = src2[i2++]; 
10 

11 while (il < n) 

12 dest[id++] = srci[ii++]; 

13 while (i2 < n) 

14 dest [id++] = src2[i2++]; 

15 “让 





对 于 把 变量 i1 和 i2 与 nn 做 比较 导致 的 分 支 ， 有 很 好 的 预测 性 能 唯一 的 预测 错误 





发 生 在 它们 第 一 次 变 成 错误 时 。 另 一 方面 ， 值 srcl[i1] 和 src2[i2] 之 间 的 比较 (第 6 
行 )， 对 于 通常 的 数据 来 说 ， 都 是 非常 难以 预测 的 。 这 个 比较 控制 一 个 条 件 分 支 ， 运 
行 在 随机 数据 上 时 ， 得 到 的 CPE 大 约 为 15.0( 这 里 元 素 的 数量 为 2n)。 

重 写 这 段 代码 ， 使 得 可 以 用 一 个 条 件 传送 语句 来 实现 第 一 个 循环 中 条 件 语句 (第 
6~9 行 ) 的 功能 。 


5. 12 理解 内 存 性 能 

到 目前 为 止 我 们 写 的 所 有 代码 ， 以 及 运行 的 所 有 测试 ， 只 访问 相对 比较 少量 的 内 存 。 
例如 ， 我 们 都 是 在 长 度 小 于 1000 个 元 素 的 向 量 上 测试 这 些 合并 函数 ， 数 据 量 不 会 超过 
8000 个 字 节 。 所 有 的 现代 处 理 器 都 包含 一 个 或 多 个 高 速 缓 存 (cache) 存 储 器 ， 以 对 这 样 少 
量 的 存储 器 提供 快速 的 访问 。 本 节 会 进一步 研究 涉及 加 载 (从 内 存 读 到 寄存 器 ) 和 存储 (从 
寄存 器 写 到 内 存 ) 操 作 的 程序 的 性 能 ， 只 考虑 所 有 的 数据 都 存放 在 高 速 缓存 中 的 情况 。 在 
第 6 章 ， 我 们 会 更 详细 地 探究 高 速 缓存 是 如 何 工 作 的 ， 它 们 的 性 能 特性 ， 以 及 如 何 编写 充 
分 利用 高 速 缓存 的 代码 。 

如 图 5-11 所 示 ， 现 代 处 理 器 有 专门 的 功能 单元 来 执行 加 载 和 存储 操作 ， 这 些 单 元 有 
内 部 的 缓冲 区 来 保存 未 完成 的 内 存 操作 请 求 集合 。 例 如 ， 我 们 的 参考 机 有 两 个 加 载 单元 ， 
每 一 个 可 以 保存 多 达 72 个 未 完成 的 读 请 求 。 它 还 有 一 个 存储 单元 ， 其 存储 缓冲 区 能 保存 
最 多 42 个 写 请 求 。 每 个 这 样 的 单元 通常 可 以 每 个 时 钟 周期 开始 一 个 操作 。 


5. 12.1 加 载 的 性 能 


一 个 包含 加 载 操作 的 程序 的 性 能 既 依赖 于 流水 线 的 能 力 ， 也 依赖 于 加 载 单元 的 延迟 
在 参考 机 上 运行 合并 操作 的 实验 中 ， 我 们 看 到 除了 使 用 SIMD 操作 时 以 外 ， 对 任何 数据 类 
型 组 合 和 合并 操作 来 说 ，CPE 从 没有 到 过 0. 50 以 下 。 一 个 制约 示例 的 CPE 的 因素 是 , 对 
于 每 个 被 计算 的 元 素 ， 所 有 的 示例 都 需要 从 内 存 读 一 个 值 。 对 两 个 加 载 单 元 而 言 ， 其 每 个 
时 钟 周期 只 能 启动 一 条 加 载 操作 ， 所 以 CPE 不 可 能 小 于 0. 50。 对 于 每 个 被 计算 的 元 素 必 
须 加 载 * 个 值 的 应 用 ， 我 们 不 可 能 获得 低 于 /2 的 CPE( 例 如 参见 家 庭 作业 5. 15)。 

到 目前 为 止 ， 我 们 在 示例 中 还 没有 看 到 加 载 操 作 的 延迟 产生 的 影响 。 加 载 操作 的 地 址 
只 依赖 于 循环 索引 i， 所 以 加 载 操作 不 会 成 为 限制 性 能 的 关键 路 径 的 一 部 分 。 














要 确定 一 台 机 器 上 加 载 操作 的 延迟 ， 我 们 可 和 ea5 现 可 
以 建立 由 一 系列 加 载 操 作 组 成 的 一 个 计算 ， 一 条 2 struct ELE *next; 
加 载 操作 的 结果 决定 下 一 条 操作 的 地 址 。 作为 一 | 3 long datai 
个 例子 ， 考 虑 函数 图 5-31 中 的 函数 list_len, | 和 } Yst-ele, PT 
它 计 算 一 个 链表 的 长 度 。 在 这 个 函数 的 循环 中 ， 6 long list_len(list_ptr 1s) { 
变量 1s 的 每 个 后 续 值 依赖 于 指针 引用 1s->next 7 long len = 0; 
读 出 的 值 。 测 试 表明 函数 1ist_ien 的 CPE 为 | 3 while (1s) { 
4. 00， 我 们 认为 这 直接 表明 了 加 载 操作 的 延迟 。 | |， ip 
A 、 s = ls->next; 
要 和 弄 懂 这 一 点 ， 考 虑 循环 的 汇编 代码 : 语 } 
Inner loop of list_len 12 return len; 
Ls in. Yrdi, len in Yrax 3 上 
1 3s loop: 
人 addq $1, %rax Increment len 图 5-31 链表 函数 。 其 性 能 受 限于 





3 movdq (radar 时 1s = 1s->next 加 载 操作 的 延迟 
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4 testq %rdi, %rdi Test 1s 
5 jne :LS If nonnull, goto loop 


第 3 行 上 的 mova 指令 是 这 个 循环 中 关键 的 瓶颈 。 后 面 寄存 器 srdi 的 每 个 值 都 依赖 于 
加 载 操 作 的 结果 ， 而 加 载 操 作 又 以 srdi 中 的 值 作为 它 的 地 址 。 因 此 ， 直 到 前 一 次 迭代 的 
加 载 操作 完成 ， 下 一 次 迁 代 的 加 载 操作 才能 开始 。 这 个 函数 的 CPE 等 于 4.00， 是 由 加 载 
操作 的 延迟 决定 的 。 事 实 上 ， 这 个 测试 结果 与 文档 中 参考 机 的 L1 级 cache 的 4 周期 访问 
时 间 是 一 致 的 ， 相 关内 容 将 在 6.4 节 中 讨论 。 


5.12.2 存储 的 性 能 


在 迄今 为 止 所 有 的 示例 中 ， 我 们 只 分 析 了 大 部 分 内 存 引 用 都 是 加 载 操 作 的 函数 ， 也 就 
是 从 内 存 位 置 读 到 寄存 器 中 。 与 之 对 应 的 是 存储 (store) 操 作 ， 它 将 一 个 寄存 器 值 写 到 内 
存 。 这 个 操作 的 性 能 ， 尤 其 是 与 加 载 操作 的 相互 关系 ， 包 括 一 些 很 细微 的 问题 。 

与 加 载 操作 一 样 ， 在 大 多 数 情况 中 ， 存 储 操作 能 够 在 完全 流水 线 化 的 模式 中 工作 ， 每 
个 周期 开始 一 条 新 的 存储 。 例 如 ， 考 虑 图 5-32 中 所 示 的 函数 ， 它 们 将 一 个 长 度 为 n 的 数 
组 dest 的 元 素 设 置 为 0。 我 们 测试 结果 为 CPE 等 于 1. 00。 对 于 只 具有 单个 存储 功能 单元 
的 机 器 ， 这 已 经 达到 了 最 佳 情 况 。 


/* Set elements of array to 0 */ 
void clear_array(long *dest, long n) { 
long i; 


for (i = 0; i < n; i++) 
dest[i] = 0; 





图 5-32 将 数组 元 素 设置 为 0 的 函数 。 该 代码 CPE 达到 1.0 


与 到 目前 为 止 我 们 已 经 考虑 过 的 其 他 操作 不 同 ， 存 储 操作 并 不 影响 任何 寄存 器 值 。 因 
此 ， 就 其 本 性 来 说 ， 一 系列 存储 操作 不 会 产生 数据 相关 。 只 有 加 载 操作 会 受 存储 操作 结果 
的 影响 ， 因 为 只 有 加 载 操作 能 从 由 存储 操作 写 的 那个 位 置 读 回 值 。 图 5-33 所 示 的 函数 
write read 说 明了 加 载 和 存储 操作 之 间 可 能 的 相互 影响 。 这 幅 图 也 展示 了 该 函数 的 两 个 
示例 执行 ， 是 对 两 元 素数 组 a 调用 的 ， 该 数组 的 初始 内 容 为 一 10 和 17， 参 数 cnt 等 于 3。 
这 些 执行 说 明了 加 载 和 存储 操作 的 一 些 细微 之 处 。 

”在 图 5-33 的 示例 A 中 ， 参 数 src 是 一 个 指向 数组 元 素 a[0] 的 指针 ， 而 dest 是 一 个 
指向 数组 元 素 a[1] 的 指针 。 在 此 种 情况 中 ， 指 针 引 用 *src 的 每 次 加 载 都 会 得 到 值 一 10。 
因此 ， 在 两 次 迭代 之 后 ， 数 组 元 素 就 会 分 别 保持 固定 为 一 10 和 一 9。 从 src 读 出 的 结果 不 
受 对 dest 的 写 的 影响 。 在 较 大 次 数 的 迭代 上 测试 这 个 示例 得 到 CPE 等 于 1. 3。 

在 图 5-33 的 示例 B 中 ， 参 数 src 和 dest 都 是 指向 数组 元 素 a[0] 的 指针 。 在 这 种 情 
况 中 ， 指 针 引 用 *src 的 每 次 加 载 都 会 得 到 指针 引用 *qdest 的 前 次 执行 存储 的 值 。 因 而 ， 
一 系列 不 断 增 加 的 值 会 被 存储 在 这 个 位 置 。 通 常 ， 如 果 调 用 函数 write _read 时 参数 src 
和 dest 指向 同一 个 内 存 位 置 ， 而 参数 cnt 的 值 为 xz 之 0， 那 么 净 效 果 是 将 这 个 位 置 设置 为 
?1 一。 这 个 示例 说 明了 一 个 现象 ,我们 称 之 为 写 / 读 相关 (write/read dependency) 一 一 一 
个 内 存 读 的 结果 依赖 于 一 个 最 近 的 内 存 写 。 我 们 的 性 能 测试 表明 示例 B 的 CPE 为 7.3。 
写 / 读 相关 导致 处 理 速 度 下 降 约 6 个 时 钟 周 期 。 
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1 /* Write to dest, read from src */ 
2 void write_read(long *src, long *dst, long n) 
本 

4 long cnt = 卫 ; 

5 long val = 0; 

6 

7 while (cnt) { 

8 *dst = val; 

9 Val = (*src)+1; 

10 CE 

11 

2; 






示例 A: write read(&a[0],&a[l1],3) 


Initial 


3 
0 





Initial 


3 
0 





图 5-33” 写 和 读 内 存 位 置 的 代码 ， 以 及 示例 执行 。 这 个 函数 突出 的 是 当 参 数 
src 和 dest 相等 时 ， 存 储 和 加 载 之 间 的 相互 影响 

为 了 了 解 处 理 器 如 何 区 别 这 两 种 情况 ， 以 及 为 什么 一 种 情况 比 另 一 种 运行 得 慢 ， 我 们 必 
须 更 加 仔细 地 看 看 加 载 和 存储 执行 单元 ， 如 图 5-34 所 示 。 存 储 单元 包含 一 个 存储 缓冲 区 ， 
它 包含 已 经 被 发 射 到 存储 单元 而 又 还 没有 完成 的 存储 操作 的 地 址 和 数据 ， 这 里 的 完成 包括 
更 新 数据 高 速 缓存 。 提 供 这 样 一 个 缓冲 区 ,使 得 一 系列 存储 操作 不 必 等 待 每 个 操作 都 更 新 
高 速 缓存 就 能 够 执行 。 当 一 个 加 载 操作 发 生 时 ， 它 必须 检查 存储 缓冲 区 中 的 条 目 ， 看 有 没 
有 地 址 相 匹配 。 如 果 有 地 址 相 匹配 (意味 着 在 写 的 
字 节 与 在 读 的 字 节 有 相同 的 地 址 )， 它 就 取出 相应 
的 数据 条 目 作 为 加 载 操作 的 结果 。 

GCC 生成 的 write _ read 内 循环 代码 如 下 : 


Inner loop of write_read 


Sre dn Xrdi, dst in Yrsi, val ja Xrax 





3: loop: 
movgd Wrax, (%rsi) Write val to dst 数据 高 速 缓存 
movg Chrai), Wrax £ = ¥8rc 
addq $1, %rax val = t+1 
subq $1, %rdx cnt—— 图 5-34 加 载 和 存储 单元 的 细节 。 存 储 单元 
jne 下 3 If != 0, goto loop 包含 一 个 未 执行 的 写 的 缓冲 区 。 如 
K 载 单元 必须 检查 它 的 地 址 是 否 与 
图 5-35 给 出 了 这 个 循环 代码 的 数据 流 表示 。 存储 单元 中 的 地 址 相符 ， 以 发 现 


指令 movq $srax, ($rsi) 被 翻译 成 两 个 操作 s 写 / 读 相关 
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addr 指令 计算 存储 操作 的 地 址 ， 在 存储 缓冲 区 创建 一 个 条 目 ， 并 且 设 置 该 条 目的 地 址 字 
段 。s_data 操作 设置 该 条 目的 数据 字段 。 正 如 我 们 会 看 到 的 ， 两 个 计算 是 独立 执行 的 ， 
这 对 程序 的 性 能 来 说 很 重要 。 这 使 得 参考 机 中 不 同 的 功能 单元 来 执行 这 些 操作 。 


Srax [srai | srsi srax | 
| movg Srax, (Srsi) 


movgq (%rdi),%Srax 





addq $1,%Srax 











Subg Fl, Yrdx 





jne loop 





图 5-35 ”write_read 内 循环 代码 的 图 形 化 表示 。 第 一 个 movl 指令 被 译 码 两 个 
独立 的 操作 ， 计 算 存储 地 址 和 将 数据 存储 到 内 存 


除了 由 于 写 和 读 寄存 器 造成 的 操作 之 间 的 数据 相关 ， 操 作 符 右边 的 弧 线 表示 这 些 操作 
隐 含 的 相关 。 特 别 地 ，s_adqdz 操作 的 地 址 计算 必须 在 s_qata 操作 之 前 。 此 外 ， 对 指令 
movq (%$rdi),%rax 译 码 得 到 的 10ad 操作 必须 检查 所 有 未 完成 的 存储 操作 的 地 址 ， 在 这 个 
操作 和 s_addr 操作 之 间 创 建 一 个 数据 相关 。 这 张 图 中 s_data 和 load 操作 之 间 有 虚 弧 
线 。 这 个 数据 相关 是 有 条 件 的 : 如 果 两 个 地 址 相同 ，1oad 操作 必须 等 待 直到 s_dqata 将 它 
的 结果 存放 到 存储 缓冲 区 中 ,但 是 如 果 两 个 地 址 不 同 ， 两 个 操作 就 可 以 独立 地 进行 。 

图 5-36 说 明了 write_read 内 循环 操作 之 间 的 数据 相关 。 在 图 5-36a 中 ， 重 新 排列 了 
操作 ， 让 相关 显得 更 清楚 。 我 们 标 出 了 三 个 涉及 加 载 和 存储 操作 的 相关 ， 和 希望 引起 大 家 特 
别 的 注意 。 标 号 为 (1) 的 弧 线 表示 存储 地 址 必须 在 数据 被 存储 之 前 计算 出 来 。 标 号 为 (2) 的 
弧 线 表示 需要 load 操作 将 它 的 地 址 与 所 有 未 完成 的 存储 操作 的 地 址 进行 比较 。 最 后 ， 标 
号 为 (3) 的 虚 弧 线 表 示 条 件数 据 相 关 ， 当 加 载 和 存储 地 址 相同 时 会 出 现 。 








a) b) 


图 5-36 抽象 write_read 的 操作 。 我 们 首先 重新 排列 图 5-35 的 操作 (a)， 然 后 只 显示 
那些 使 用 一 次 迭代 中 的 值 为 下 一 次 迭代 产生 新 值 的 操作 (b) 








图 5-36b 说 明了 当 移 走 那些 不 直接 影响 迭代 与 迭代 之 间 数 据 流 的 操作 之 后 ， 会 发 生 什 
么 。 这 个 数据 流 图 给 出 两 个 相关 链 : 左边 的 一 条 ， 存 储 、 加 载 和 增加 数据 值 ( 只 对 地 址 相 
同 的 情况 有 效 )， 右 边 的 一 条 ， 减 小 变量 cnt。 

现在 我 们 可 以 理解 函数 write_read 的 性 能 特征 了 。 图 5-37 说 明 的 是 内 循环 的 多 次 迭 
代 形 成 的 数据 相关 。 对 于 图 5-33 示例 A 的 情况 ， 有 不 同 的 源 和 目的 地 址 ， 加 载 和 存储 操 
作 可 以 独立 进行 ， 因 此 唯一 的 关键 路 径 是 由 减少 变量 cnt 形成 的 ， 这 使 得 CPE 等 于 1.0。 
对 于 图 5-33 示例 B 的 情况 ， 源 地 址 和 目的 地 址 相同 ，s_data 和 load 指令 et 
关 使 得 关键 路 径 的 形成 包括 了 存储 、 加 载 和 增加 数据 。 我 们 发 现 顺序 执行 这 三 个 操作 一 

需要 7 个 时 钟 周 期 。 
示例 A 示例 B 


关键 路 径 关键 路 径 


| 和 


图 5-37 a read 的 数据 流 表示 。 当 两 个 地 址 不 同时 ， 唯 一 的 关键 路 径 是 减少 cnt (示例 
。 当 两 个 地 址 相同 时 ， 存 储 、 加 载 和 增加 数据 的 链 形成 了 关键 路 径 ( 示 例 B) 


这 两 个 例子 说 明 ， 内 存 操作 的 实现 包括 许多 细微 之 处 。 对 于 寄存 器 操作 ， 在 指令 被 译 
码 成 操作 的 时 候 ， 处 理 器 就 可 以 确定 哪些 指令 会 影响 其 他 哪些 指令 。 另 一 方面 ， 对 于 内 存 
操作 ， 只 有 到 计算 出 加 载 和 存储 的 地 址 被 计算 出 来 以 后 ， 处 理 器 才能 确定 哪些 指令 会 影响 
其 他 的 哪些 。 高 效 地 处 理 内 存 操作 对 许多 程序 的 性 能 来 说 至 关 重 要 。 内 存 子 系统 使 用 了 很 
多 优化 ， 例 如 当 操 作 可 以 独立 地 进行 时 ， 就 利用 这 种 潜在 的 并 行 性 。 
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ES 练习 题 5. 10 ”作为 另 一 个 具有 潜在 的 加 载 - 存 储 相 互 影 响 的 代码 ， 考 虑 下 面 的 函数 ， 
它 将 一 个 数组 的 内 容 复制 到 另 一 个 数组 : 


1 void copy_array(long *src, long *dest, long n) 
名 ”下 

3 long i; 

4 for (i = 0; i < n; i++) 

E dest [i] = src[i]; 

中 


假设 a 是 一 个 长 度 为 1000 的 数组 ， 被 初始 化 为 每 个 元 素 a[ 引 等 于 i。 
调用 copy array (at+1,a,999) 的 效果 是 什么 ? 
B. 调用 copy array (a,a+1, 999) 的 效果 是 什么 ? 
C. 我 们 的 性 能 测试 表明 问题 A 调用 的 CPE 为 1.2( 循 环 展 开 因 子 为 4 时 ， 该 值 下 降 到 
1.0)， 而 问题 B 调 用 的 CPE 为 5.0。 你 认为 是 什么 因素 造成 了 这 样 的 性 能 差异 ? 
D. 你 预计 调用 copy array (a,a,999) 的 性 能 会 是 怎样 的 ? 

S\ 练习 题 5. 11 我 们 测量 出 前 置 和 函数 psuml( 图 5-1) 的 CPE 为 9.00， 在 测试 机 器 上 ， 
要 执行 的 基本 操作 浮 点 加 法 的 延迟 只 是 3 个 时 钟 周期 。 试 着 理解 为 什么 我 们 的 函 
数 执行 效果 这 么 差 。 

下 面 是 这 个 函数 内 循环 的 汇编 代码 : 


Tnner loop of psuml 


-> 








& Ya Nadi, 1 I Wrar, ht in Yio 


1 .L5: loop: 

2 vmovss -4(%rsi,%rax,4), %xmmO Get p[i-1] 

3 vaddss (%rdi,%rax,4), %xmmO, %xmmO Add a[i] 

4 vmovss “xmm0, (rsi,%rax,4) Store at p[i] 

5 addq $1, %rax Increment i 

6 cmpq %rdx, hrax Compare i:cnt 
;7 jne . 工 5 If !=, goto loop 


参考 对 combine3( 图 5-14) 和 write read( 图 5-36) 的 分 析 ， 画 出 这 个 循环 生成 的 数 
据 相 关 图 ， 再 画 出 计算 进行 时 由 此 形成 的 关键 路 径 。 解 释 为 什么 CPE 如 此 之 高 。 
训练 习题 5. 12 重 写 psuml( 图 5-1) 的 代码 ， 使 之 不 需要 反复 地 从 内 存 中 读 取 p[i] 的 
值 。 不 需要 使 用 循环 展开 。 得 到 的 代码 测试 出 的 CPE 等 于 3.00， 受 浮 点 加 法 延 雇 的 
限制 。 


5.13 应 用 : 性 能 提高 技术 
虽然 只 考虑 了 有 限 的 一 组 应 用 程序 ， 但 是 我 们 能 得 出 关于 如 何 编写 高 效 代 码 的 很 重要 
的 经 验 教训 。 我 们 已 经 描述 了 许多 优化 程序 性 能 的 基本 策略 : 
1) 高 级 设计 。 为 遇 到 的 问题 选择 适当 的 算法 和 数据 结构 。 要 特别 警觉 ， 避 免 使 用 那 
些 会 渐进 地 产生 糟糕 性 能 的 算法 或 编码 技术 。 
2) 基本 编码 原则 。 避 免 限 制 优化 的 因素 ， 这 样 编译 器 就 能 产生 高 效 的 代码 。 
e。 消除 连续 的 函数 调用 。 在 可 能 时 ， 将 计算 移 到 循环 外 。 考 虑 有 选择 地 妥协 程序 的 模 
块 性 以 获得 更 大 的 效率 。 
e 消除 不 必要 的 内 存 引 用 。 引 入 临时 变量 来 保存 中 间 结 果 。 只 有 在 最 后 的 值 计 算出 来 
时 ， 才 将 结果 存放 到 数组 或 全 局 变量 中 。 
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3) 低级 优化 。 结 构 化 代码 以 利用 硬件 功能 。 

e 展开 循环 ， 降 低 开 销 ， 并 且 使 得 进一步 的 优化 成 为 可 能 。 

e 通过 使 用 例如 多 个 累积 变量 和 重新 结合 等 技术 ， 找 到 方法 提高 指令 级 并 行 。 

e 用 功能 性 的 风格 重 写 条 件 操作 ， 使 得 编译 采用 条 件数 据 传送 。 

最 后 要 给 读者 一 个 忠告 ， 要 警惕 ， 在 为 了 提高 效率 重 写 程 序 时 避免 引入 错误 。 在 引入 
新 变量 、 改 变 循环 边界 和 使 得 代码 整体 上 更 复杂 时 ， 很 容易 犯错 误 。 一 项 有 用 的 技术 是 在 
优化 函数 时 ， 用 检查 代码 来 测试 函数 的 每 个 版 本 ， 以 确保 在 这 个 过 程 没 有 引入 错误 。 检 查 
代码 对 函数 的 新 版 本 实施 一 系列 的 测试 ， 确 保 它 们 产生 与 原来 一 样 的 结果 。 对 于 高 度 优化 
的 代码 ， 这 组 测试 情况 必须 变 得 更 加 广泛 ， 因 为 要 考虑 的 情况 也 更 多 。 例 如 ， 使 用 循环 展 
开 的 检查 代码 需要 测试 许多 不 同 的 循环 界限 ， 保 证 它 能 够 处 理 最 终 单 步 迭 代 所 需要 的 所 有 
不 同 的 可 能 的 数字 。 


5. 14 确认 和 消除 性 能 瓶颈 

至 此 ， 我 们 只 考虑 了 优化 小 的 程序 ， 在 这 样 的 小 程序 中 有 一 些 很 明显 限制 性 能 的 地 
方 ， 因 此 应 该 是 集中 注意 力 对 它们 进行 优化 。 在 处 理 大 程序 时 ， 连 知道 应 该 优化 什么 地 方 
都 是 很 难 的 。 本 节 会 描述 如 何 使 用 代码 剖析 程序 (code profiler)， 这 是 在 程序 执行 时 收集 
性 能 数据 的 分 析 工 具 。 我 们 还 展示 了 一 个 系统 优化 的 通用 原则 ， 称 为 Amdahl 定律 (Am- 
dahl2s law)， 参 见 1.9.1 节 。 








5. 14.1 程序 剖析 


程序 剖析 (profiling) 运 行程 序 的 一 个 版 本 ， 其 中 插入 了 工具 代码 ， 以 确定 程序 的 各 个 
部 分 需要 多 少时 间 。 这 对 于 确认 程序 中 我 们 需要 集中 注意 力 优化 的 部 分 是 很 有 用 的 。 剖 析 
的 一 个 有 力 之 处 在 于 可 以 在 现实 的 基准 数据 (benchmark data) 上 运行 实际 程序 的 同时 ， 进 
行 剖 析 。 

Unix 系统 提供 了 一 个 剖析 程序 GPROF。 这 个 程序 产生 两 种 形式 的 信息 。 首 先 ， 它 确 
定 程 序 中 每 个 函数 花费 了 多 少 CPU 时 间 。 其 次 ， 它 计算 每 个 函数 被 调用 的 次 数 ， 以 执行 
调用 的 函数 来 分 类 。 这 两 种 形式 的 信息 都 非常 有 用 。 这 些 计 时 给 出 了 不 同 函 数 在 确定 整体 
运行 时 间 中 的 相对 重要 性 。 调 用 信息 使 得 我 们 能 理解 程序 的 动态 行为 。 

用 GPROF 进行 剖析 需要 3 个 步 又， 就 像 C 程序 prog.c 所 示 ， 它 运行 时 命令 行 参数 
为 file.txt: 

1) 程序 必须 为 剖析 而 编译 和 链接 。 使 用 GCC( 以 及 其 他 C 编译 器 ) ， 就 是 在 命令 行 上 简 
单 地 包括 运行 时 标志 “-Ppg”。 确 保 编 译 器 不 通过 内 联 蔡 换 来 尝试 执行 任何 优化 是 很 重要 的 ， 
否则 就 可 能 无 法 正确 刻画 函数 调用 。 我 们 使 用 优化 标志 -0g， 以 保证 能 正确 跟踪 函数 调用 。 

linux> gcc -0g -pg prog.c -0o prog 

2) 然后 程序 像 往常 一 样 执 行 : 

linux> ./prog file.txt 

它 运 行 得 会 比 正常 时 稍微 慢 一 点 (大 约 慢 2 倍 ) ， 不 过 除 此 之 外 唯一 的 区 别 就 是 它 产生 
了 一 个 文件 gmon .out。 

3) 调用 GPROF 来 分 析 gmon .out 中 的 数据 。 


linux> gprof prog 
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剖析 报告 的 第 一 部 分 列 出 了 执行 各 个 函数 花费 的 时 间 ， 按 照 降序 排列 。 作 为 一 个 示 


例 ， 下面 列 出 了 报告 的 一 部 分 ， 是 关于 程序 中 最 耗费 时 间 的 三 个 函数 的 : 
% cumulative self self total 
time seconds seconds calls s/call s/call name 
97.58 203.66 203.66 1 203.66 203.66 sort_words 
Zn 208.50 4.85 965027 0.00 0.00 find_ele_rec 
0.14 208.81 Qa30 L2511031 0.00 0.00 Strlen 


每 一 行 代表 对 某 个 函数 的 所 有 调用 所 花费 的 时 间 。 第 一 列表 明 花 费 在 这 个 函数 上 的 时 
间 占 整个 时 间 的 百分比 。 第 二 列 显示 的 是 直到 这 一 行 并 包括 这 一 行 的 函数 所 花费 的 累计 时 
间 。 第 三 列 显示 的 是 花费 在 这 个 函数 上 的 时 间 ， 而 第 四 列 显示 的 是 它 被 调用 的 次 数 ( 递 归 
调用 不 计算 在 内 )。 在 例子 中 ， 函 数 sort words 只 被 调用 了 一 次 ,但 就 是 这 一 次 调用 需 
要 203. 66 秒 ， 而 函数 finqd_ ele rec 被 调用 了 965 027 次 (递归 调用 不 计算 在 内 ) ， 总 共 需 
要 4.85 秒 。 函 数 strlen 通过 调用 库 函 数 strlen 来 计算 字符 串 的 长 度 。GPROF 的 结果 
中 通常 不 显示 库 函 数 调用 。 库 函数 耗费 的 时 间 通 常 计算 在 调用 它们 的 函数 内 。 通 过 创建 这 
个 “包装 函数 (wrapper function)”Strlen， 我 们 可 以 可 靠 地 跟踪 对 strlen 的 调用 ， 表 
明 它 被 调用 了 12 511 031 次 ， 但 是 一 共 只 需要 0. 30 秒 。 

放 析 报告 的 第 二 部 分 是 函数 的 调用 历史 。 下 面 是 一 个 递归 函数 find ele rec 的 历史 : 


158655725 find_ele_rec [5] 
4.85 0.10 965027/965027 insert_string [4] 
[5] | 4.85 0.10 965027+158655725 find_ele_rec [5] 
0.08 0.01 363039/363039 save_string [8] 
0.00 0.01 363039/363039 new_ele [12] 
158655725 find_ele_rec [5] 


这 个 历史 既 显示 了 调用 find_ele_rec 的 函数 ， 也 显示 了 它 调用 的 函数 。 头 两 行 显示 的 是 
对 这 个 函数 的 调用 : 被 它 自身 递归 地 调用 了 158 655 725 次 ， 被 函数 insert string 调用 
了 965 027 次 ( 它 本 身 被 调用 了 965 027 次 ) 。 函 数 find ele rec 也 调用 了 另外 两 个 函数 
save_string 和 new_ ele， 每 个 函数 总 共 被 调用 了 363 039 次 。 
根据 这 个 调用 信息 ， 我 们 通常 可 以 推断 出 关于 程序 行为 的 有 用 人 信息。 例如， 函数 
find_ele_rec 是 一 个 递归 过 程 ， 它 扫描 一 个 哈 希 桶 (hash bucket) 的 链表 ， 查 找 一 个 特殊 
的 字符 串 。 对 于 这 个 函数 ， 比 较 递 归 调 用 的 数量 和 顶层 调用 的 数量 ， 提 供 了 关于 遍历 这 些 
链表 的 长 度 的 统计 信息 。 这 里 递归 与 顶层 调用 的 比率 是 164.4， 我 们 可 以 推断 出 程序 每 次 
平均 大 约 扫 描 164 个 元 素 。 
GPROF 有 些 属 性 值得 注意 : 
e 计时 不 是 很 准确 。 它 的 计时 基于 一 个 简单 的 间隔 计数 (interval counting) 机 制 ， 编 译 过 
的 程序 为 每 个 函数 维护 一 个 计数 器 ， 记 录 花 费 在 执行 该 函数 上 的 时 间 。 操 作 系 统 使 得 
每 隔 某 个 规则 的 时 间 间 隔 $， 程 序 被 中 断 一 次 。8 的 典型 值 的 范围 为 1. 0 一 10. 0 毫秒 。 
当中 断 发 生 时 ， 它 会 确定 程序 正在 执行 什么 函数 ， 并 将 该 函数 的 计数 器 值 增加 8。 当 
然 ， 也 可 能 这 个 函数 只 是 刚 开始 执行 ， 而 很 快 就 会 完成 ， 却 赋 给 它 从 上 次 中 断 以 来 整个 
的 执行 花费 。 在 两 次 中 断 之 间 也 可 能 运行 其 他 某 个 程序 ， 却 因此 根本 没有 计算 花费 。 
对 于 运行 时 间 较 长 的 程序 ， 这 种 机 制 工 作 得 相当 好 。 从 统计 上 来 说 ， 应 该 根据 
花费 在 执行 函数 上 的 相对 时 间 来 计算 每 个 函数 的 花费 。 不 过 ， 对 于 那些 运行 时 间 少 
于 1 秒 的 程序 来 说 ， 得 到 的 统计 数字 只 能 看 成 是 粗略 的 估计 值 。 
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e 假设 没有 执行 内 联 替 换 ， 则 调用 信息 相当 可 靠 。 编 译 过 的 程序 为 每 对 调用 者 和 被 调 
用 者 维护 一 个 计数 器 。 每 次 调用 一 个 过 程 时 ， 就 会 对 适当 的 计数 器 加 1。 

e 默认 情况 下 ， 不 会 显示 对 库 函 数 的 计时 。 相 反 ， 库 函数 的 时 间 都 被 计算 到 调用 它们 
的 函数 的 时 间 中 。 


5. 14.2 使 用 剖析 程序 来 指导 优化 


作为 一 个 用 剖析 程序 来 指导 程序 优化 的 示例 ， 我 们 创建 了 一 个 包括 几 个 不 同 任务 和 数 
据 结 构 的 应 用 。 这 个 应 用 分 析 一 个 文本 文档 的 n-gram 统计 信息 ， 这 里 n-gram 是 一 个 出 现 
在 文档 中 个 单词 的 序列 。 对 于 z 王 1， 我 们 收集 每 个 单词 的 统计 信息 ， 对 于 2 一 2， 收 集 
每 对 单词 的 统计 信息 ， 以 此 类 推 。 对 于 一 个 给 定 的 二 值 ， 程 序 读 一 个 文本 文件 ， 创 建 一 张 
互 不 相同 的 n-gram 的 表 ， 指 出 每 个 n-gram 出 现 了 多 少 次 ， 然 后 按照 出 现 次 数 的 降序 对 单 
词 排序 。 

作为 基准 程序 ， 我们 在 一 个 由 《莎士比亚 全 集 ) 组 成 的 文件 上 运行 这 个 程序 ， 一 共有 
965 028 个 单词 ， 其 中 23 706 个 是 互 不 相同 的 。 我 们 发 现 ， 对 于 n 二 1， 即 使 是 一 个 写 得 很 
烂 的 分 析 程 序 也 能 在 1 秒 以 内 处 理 完整 个 文件 ， 所 以 我 们 设置 xz=2， 使 得 事情 更 加 有 挑 
战 。 对 于 n= 二 2 的 情况 ，n-gram 被 称 为 bigram( 读 作 “bye-gram>) 。 我 们 确定 《莎士比亚 全 
集 》 包 含 363 039 个 互 不 相同 的 bigram。 最 常见 的 是 “I am”， 出 现 了 1892 次 。 词 组 “to 
be” 出 现 了 1020 次 。bigram 中 有 266 018 个 只 出 现 了 一 次 。 

程序 是 由 下 列 部 分 组 成 的 。 我 们 创建 了 多 个 版 本 ， 从 各 部 分 简单 的 算法 开始 ， 然 后 再 
换 成 更 成 熟 完善 的 算法 : 

1) 从 文件 中 读 出 每 个 单词 ， 并 转换 成 小 写字 母 。 我 们 最 初 的 版 本 使 用 的 是 函数 lowerl 
(图 5-7)， 我 们 知道 由 于 反复 地 调用 strlen， 它 的 时 间 复 杂 度 是 二 次 的 。 

2) 对 字符 串 应 用 一 个 哈 希 函数 ， 为 一 个 有 s 个 桶 (bucket) 的 哈 希 表 产生 一 个 0~5-1 
之 间 的 数 。 最 初 的 函数 只 是 简单 地 对 字符 的 ASCII 代码 求 和 ， 再 对 * 求 模 。 

3) 每 个 哈 希 桶 都 组 织 成 一 个 链表 。 程 序 沿 着 这 个 链表 扫描 ， 寻 找 一 个 匹配 的 条 目 。 
如 果 找 到 了 ， 这 个 n-gram 的 频 度 就 加 1。 否则， 就 创建 一 个 新 的 链表 元 素 。 最 初 的 版 本 弟 
归 地 完成 这 个 操作 ， 将 新 元 素 插 在 链表 尾部 。 

4) 一 旦 已 经 生成 了 这 张 表 ， 我 们 就 根据 频 度 对 所 有 的 元 素 排 序 。 最 初 的 版 本 使 用 插入 
排序 。 

图 5-38 是 n-gram 频 度 分 析 程 序 6 个 不 同 版 本 的 剖析 结果 。 对 于 每 个 版 本 ， 我 们 将 时 
间 分 为 下 面 的 5 类。 

Sort: 按照 频 度 对 n-gram 进行 排序 

List: 为 匹配 n-gram 扫描 链表 ， 如 果 需 要 ， 插 人 一 个 新 的 元 素 

Lower: 将 字符 串 转换 为 小 写字 母 

Strlen: 计算 字符 串 的 长 度 

Hash: 计算 哈 希 函数 

Rest: 其 他 所 有 函数 的 和 

如 图 5-38a 所 示 ， 最 初 的 版 本 需要 3. 5 分 钟 ， 大 多 数 时 间 花 在 了 排序 上 。 这 并 不 奇怪 ， 
因为 插入 排序 有 二 次 的 运行 时 间 ， 而 程序 对 363 039 个 值 进行 排序 。 

在 下 一 个 版 本 中 ， 我 们 用 库 函 数 qsort 进行 排序 ， 这 个 函数 是 基于 快速 排序 算法 的 
L98]， 其 预期 运行 时 间 为 O(nlogn)。 在 图 中 这 个 版 本 称 为 “Quicksort”。 更 有 效 的 排序 算 
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| 人 而 整个 运行 时 间 降 低 到 大 约 5.4 秒 。 图 5-38b 
下 各 个 版 本 的 时 间 ， 所 用 的 比例 能 使 我 们 看 得 更 清楚 。 
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b ) 除了 最 慢 的 版 本 外 的 所 有 版 本 
图 5-38 bigram 频 度 计数 程序 的 各 个 版 本 的 剖析 结果 。 时 间 是 根据 程序 中 不 同 的 主要 操作 划分 的 


“ 改进 了 排序 ， 现 在 发 现 链表 扫描 变 成 了 瓶颈 。 想 想 这 个 低 效率 是 由 于 函数 的 递归 结构 
引起 的 ， 我 们 用 一 个 迭代 的 结构 替换 它 ， 显 示 为 “Iter first”。 令 人 奇怪 的 是 ， 运 行 时 间 增 
加 到 了 大 约 7.5 秒 。 根 据 更 近 一 步 的 研究 ， 我 们 发 现 两 个 链表 函数 之 间 有 一 个 细微 的 差 
别 。 递 归 版 本 将 新 元 素 插入 到 链表 尾部 ， 而 迭代 版 本 把 它们 插 到 链表 头 部 。 为 了 使 性 能 
大 化 ， 我 们 希望 频率 最 高 的 n-gram 出 现在 链表 的 开始 处 。 这 样 一 来 ， 函 数 就 能 快速 地 定 
位 常见 的 情况 。 假 设 n-gram 在 文档 中 是 均匀 分 布 的 ， 我 们 期 望 频 度 高 的 单词 的 第 一 次 出 
现在 频 度 低 的 单词 之 前 。 通 过 将 新 的 n-gram 插入 尾部 ， 第 一 个 函数 倾向 于 按照 频 度 的 降 
序 排 序 ， 而 第 二 个 函数 则 相反 。 因 此 我 们 创建 第 三 个 链表 扫描 函数 ， 它 使 用 迭代 ， 但 是 将 
新 元 素 插 人 到 链表 的 尾部 。 使 用 这 个 版 本 ， 显 示 为 “Iter last”， 时 间 降 到 了 大 约 5. 3 秒 ， 
比 递 归 版 本 稍微 好 一 点 。 这 些 测量 展示 了 对 程序 做 实验 作为 优化 工作 一 部 分 的 重要 性 。 开 
始 时 ， 我 们 假设 将 递归 代码 转换 成 迭代 代码 会 改进 程序 的 性 能 ， 而 没有 考虑 添加 元 素 到 链 
表 末 尾 和 开头 的 差别 。 

接 下 来 ， 我 们 考虑 哈 希 表 的 结构 。 最 初 的 版 本 只 有 1021 个 桶 (通常 会 选择 桶 的 个 数 为 
质数 ， 以 增强 哈 希 函数 将 关键 字 均 匀 分 布 在 桶 中 的 能 力 ) 。 对 于 一 个 有 363 039 个 条 目的 表 
来 说 ， 这 就 意味 着 平均 负载 (load) 是 363 039/1021 王 355. 6。 这 就 解释 了 为 什么 有 那么 多 时 
间 花 在 了 执行 链表 操作 上 了 一 一 搜索 包括 测试 大 量 的 候选 ~gram。 它 还 解释 了 为 什么 性 能 
对 链表 的 排序 这 么 敏感 。 然 后 ， 我 们 将 桶 的 数量 增加 到 了 199 999, 平均 负载 降低 到 了 
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1.8。 不 过 ， 很 奇怪 的 是 ,整体 运行 时 间 只 下 降 到 5. 1 秒 ， 差 距 只 有 0. 2 秒 。 

进一步 观察 ， 我 们 可 以 看 到 ， 表 变 大 了 但 是 性 能 提高 很 小 ， 这 是 由 于 哈 希 函 数 选 择 的 
不 好 。 简 单 地 对 字符 串 的 字符 编码 求 和 不 能 产生 一 个 大 范围 的 值 。 特 别 是 ， 一 个 字母 最 大 
的 编码 值 是 122， 因 而 nn 个 字符 产生 的 和 最 多 是 122n。 在 文档 中 ， 最 长 的 bigram(“honor- 
ificabilitudinitatibus thou”) 的 和 也 不 过 是 3371， 所 以 ， 我 们 哈 希 表 中 大 多 数 桶 都 是 不 会 被 
使 用 的 。 此 外 ， 可 交换 的 哈 希 函数 ， 例 如 加 法 ， 不 能 对 一 个 字符 串 中 不 同 的 可 能 的 字符 顺 
序 做 出 区 分 。 例 如 ， 单 词 “rat” 和 “tar” 会 产生 同样 的 和 。 

我 们 换 成 一 个 使 用 移 位 和 异 或 操作 的 哈 希 函数 。 使 用 这 个 版 本 ， 显 示 为 “Better 
Hash”， 时 间 下 降 到 了 0. 6 秒 。 一 个 更 加 系统 化 的 方法 是 更 加 仔细 地 研究 关键 字 在 桶 中 的 
分 布 ， 如 果 哈 希 孔 数 的 输出 分 布 是 均匀 的 ， 那么 确保 这 个 分 布 接近 于 人 们 期 望 的 那样 。 

最 后 ， 我 们 把 运行 时 间 降 到 了 大 部 分 时 间 是 花 在 strlen 上 ， 而 大 多 数 对 strlen 的 
调用 是 作为 小 写字 母 转 换 的 一 部 分 。 我 们 已 经 看 到 了 函数 lowerl 有 二 次 的 性 能 ， 特 别 是 
对 长 字符 串 来 说 。 这 篇 文档 中 的 单词 足够 短 ， 能 避免 二 次 性 能 的 灾难 性 的 结果 ; 最 长 的 
bigram 只 有 32 个 字符 。 不 过 换 成 使 用 lower2， 显 示 为 “Linear Lower” 得 到 很 好 的 性 
能 ， 整 个 时 间 降 到 了 0. 2 秒 。 

通过 这 个 练习 ， 我 们 展示 了 代码 剖析 能 够 帮助 将 一 个 简单 应 用 程序 所 需 的 时 间 从 3.5 
分 钟 降 低 到 0. 2 秒 ， 得 到 的 性 能 提升 约 为 1000 倍 。 剂 析 程 序 帮 助 我 们 把 注意 力 集 中 在 程 
序 最 耗 时 的 部 分 上 ， 同 时 还 提供 了 关于 过 程 调用 结构 的 有 用 信息 。 代 码 中 的 一 些 瓶 颈 ， 例 
如 二 次 的 排序 函数 ， 很 容易 看 出 来 ; 而 其 他 的 ， 例 如 插入 到 链表 的 开始 还 是 结尾 ， 只 有 通 
过 仔细 的 分 析 才 能 看 出 。 

我 们 可 以 看 到 ， 训 析 是 工具 箱 中 一 个 很 有 用 的 工具 ， 但 是 它 不 应 该 是 唯一 一 个 。 计 时 测 
量 不 是 很 准确 ， 特 别 是 对 较 短 的 运行 时 间 ( 小 于 1 秒 ) 来 说 。 更 重要 的 是 ， 结 果 只 适用 于 被 测 
试 的 那些 特殊 的 数据 。 例 如 ， 如 果 在 由 较 少 数量 的 较 长 字符 串 组 成 的 数据 上 运行 最 初 的 函 
数 ， 我 们 会 发 现 小 写字 母 转 换 函 数 才 是 主要 的 性 能 瓶颈 。 更 糟糕 的 是 ， 如 果 它 只 剖析 包含 短 
单词 的 文档 ， 我 们 可 能 永远 不 会 发 现 隐 藏 着 的 性 能 瓶颈 ， 例 如 lowerl 的 二 次 性 能 。 通 常 ， 
假设 在 有 代表 性 的 数据 上 运行 程序 ， 剖 析 能 帮助 我 们 对 典型 的 情况 进行 优化 ， 但 是 我 们 还 应 
该 确保 对 所 有 可 能 的 情况 ， 程 序 都 有 相当 的 性 能 。 这 主要 包括 避免 得 到 糟糕 的 渐 近 性 能 (as- 
ymptotic performance) 的 算法 (例如 插入 算法 ) 和 坏 的 编程 实践 (例如 lower1)。 

1. 9. 1 中 讨论 了 Amdahl 定律 ， 它 为 通过 有 针对 性 的 优化 来 获取 性 能 提升 提供 了 一 些 
其 他 的 见解 。 对 于 n-gram 代码 来 说 ， 当 用 quicksort 代替 了 插 和 人 排序 后 ， 我 们 看 到 总 的 执 
行 时 间 从 209. 0 秒 下 降 到 5.4 秒 。 初 始 版 本 的 209.0 秒 中 的 203. 7 秒 用 于 执行 插入 排序 ， 
得 到 a 一 0. 974， 被 此 次 优化 加 速 的 时 间 比 例 。 使 用 quicksort， 花 在 排序 上 的 时 间 变 得 微 
不 足 道 ， 得 到 预计 的 加 速 比 为 209/a 二 39. 0， 接 近 于 测量 加 速 比 38. 5。 我 们 之 所 以 能 获得 
大 的 加 速 比 ， 是 因为 排序 在 整个 执行 时 间 中 占 了 非常 大 的 比例 。 然 而 ， 当 一 个 瓶颈 消除 ， 
而 新 的 瓶颈 出 现时 ， 就 需要 关注 程序 的 其 他 部 分 以 获得 更 多 的 加 速 比 。 ” 


5 15 “处 结 


虽然 关于 代码 优化 的 大 多 数论 述 都 描述 了 编译 器 是 如 何 能 生成 高 效 代 码 的 ， 但 是 应 用 程序 员 有 很 多 方 
法 来 协助 编译 器 完成 这 项 任务 。 没 有 任何 编译 器 能 用 一 个 好 的 算法 或 数据 结构 代替 低 效率 的 算法 或 数据 结 
构 ， 因 此 程序 设计 的 这 些 方面 仍然 应 该 是 程序 员 主 要 关心 的 。 我 们 还 看 到 妨碍 优化 的 因素 ， 例 如 内 存 别名 
使 用 和 过 程 调 用 ， 严 重 限 制 了 编译 器 执行 大 量 优化 的 能 力 。 同 样 ， 程 序 员 必 须 对 消除 这 些 妨碍 优化 的 因素 
负 主 要 的 责任 。 这 些 应 该 被 看 作 好 的 编程 习惯 的 一 部 分 ， 因 为 它们 可 以 用 来 消除 不 必要 的 工作 。 
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基本 级 别 之 外 调整 性 能 需要 一 些 对 处 理 器 微 体系 结构 的 理解 ， 描 述 处 理 器 用 来 实现 它 的 指令 集体 系 
结构 的 底层 机 制 。 对 于 乱 序 处 理 器 的 情况 ， 只 需要 知道 一 些 关 于 操作 、 容 量 、 延 迟 和 功能 单元 发 射 时 间 
的 信息 ， 就 能 够 基本 地 预测 程序 的 性 能 

我 们 研究 了 一 系列 技术 ,包括 循环 展开 、 创 建 多 个 累积 变量 和 重新 结合 ， 它 们 可 以 利用 现代 处 理 器 
提供 的 指令 级 并 行 。 随 着 对 优化 的 深信， 研究 产 生 的 汇编 代码 以 及 试 着 理解 机 器 如 何 执行 计算 变 得 重要 
起 来 。 确 认 由 程序 中 的 数据 相关 决定 的 关键 路 径 ， 尤 其 是 循环 的 不 同 迭 代 之 间 的 数据 相关 ， 会 收获 良 多 。 
我 们 还 可 以 根据 必须 要 计算 的 操作 数量 以 及 执行 这 些 操作 的 功能 单元 的 数量 和 发 射 时 间 ， 计 算 一 个 计算 
的 吞吐 量 界限 。 

包含 条 件 分 支 或 与 内 存 系统 复杂 交互 的 程序 ， 比 我 们 最 开始 考虑 的 简单 循环 程序 ， 更 难以 分 析 和 优 
化 。 基 本 策略 是 使 分 支 更 容易 预测 ， 或 者 使 它们 很 容易 用 条 件数 据 传 送 来 实现 。 我 们 还 必须 注意 存储 和 
加 载 操作 。 将 数值 保存 在 局 部 变量 中 ， 使 得 它们 可 以 存放 在 寄存 器 中 ， 这 会 很 有 帮助 。 

当 处 理 大 型 程序 时 ， 将 注意 力 集中 在 最 耗 时 的 部 分 变 得 很 重要 。 代 码 剂 析 程 序 和 相关 的 工具 能 帮助 
我 们 系统 地 评价 和 改进 程序 性 能 。 我 们 描述 了 GPROF ， 一 个 标准 的 Unix 剖析 工具 。 还 有 更 加 复杂 完善 
的 剖析 程序 可 用 ， 例 如 Intel 的 VTUNE 程序 开发 系统 ， 还 有 Linux 系统 基本 上 都 有 的 VALGRIND。 这 
些 工具 可 以 在 过 程 级 分 解 执行 时 间 ， 估 计 程 序 每 个 基本 块 (basic block) 的 性 能 。( 基 本 块 是 内 部 没有 控制 
转移 的 指令 序列 ， 因 此 基本 块 总 是 整个 被 执行 的 。) 


参考 文献 说 明 


我 们 的 关注 点 是 从 程序 员 的 角度 描述 代码 优化 ， 展 示 如 何 使 书写 的 代码 能 够 使 编译 器 更 容易 地 产生 
高 效 的 代码 。Chellappa、Franchetti 和 Piischel 的 扩展 的 论文 [19] 采 用 了 类 似 的 方法 ， 但 关于 处 理 器 的 特 
性 描述 得 更 详细 。 

有 许多 著作 从 编译 器 的 角度 描述 了 代码 优化 ， 形 式 化 描述 了 编辑 器 可 以 产生 更 有 效 代码 的 方法 。 
Muchnick 的 著作 被 认为 是 最 全 面 的 [80]。Wadleigh 和 Crawford 的 关于 软件 优化 的 著作 [115] 密 盖 了 一 些 
我 们 已 经 谈 到 的 内 容 ， 不 过 它 还 描述 了 在 并 行 机 器 上 获得 高 性 能 的 过 程 。Mahlke 等 人 的 一 篇 比较 早期 的 
论文 [75j]， 描 述 了 几 种 为 编译 器 开发 的 将 程序 映射 到 并 行 机 器 上 的 技术 ,它们 是 如 何 能 够 被 改造 成 利用 
现代 处 理 器 的 指令 级 并 行 的 。 这 篇 论文 覆盖 了 我 们 讲 过 的 代码 变换 ， 包 括 循环 展开 、 多 个 累积 变量 (他 们 
称 之 为 累积 变量 扩展 (accumulator variable expansion)) 和 重新 结合 (他 们 称 之 为 树 高 度 减少 (tree height 
reduction) ) 。 

我 们 对 乱 序 处 理 器 的 操作 的 描述 相当 简单 和 抽象 。 可 以 在 高 级 计算 机 体系 结构 教科 书 中 找到 对 通用 
原则 更 完整 的 描述 ， 例 如 Hennessy 和 Patterson 的 著作 [46， 第 2 一 3 章 ]。Shen 和 Lipasti 的 书 [100] 提 供 
了 对 现代 处 理 器 设计 深入 的 论述 。 


家 庭 作业 


*5.13 假设 我 们 想 编写 一 个 计算 两 个 向 量 u 和 v 内 积 的 过 程 。 这 个 函数 的 一 个 抽象 版 本 对 整数 和 浮 点 数 
类 型 ， 在 x86-64 上 CPE 等 于 14 一 18。 通 过 进行 与 我 们 将 抽象 程序 combinel 变换 为 更 有 效 的 
combine4 相同 类 型 的 变换 ， 我 们 得 到 如 下 代码 : 

/* Inner product. Accumulate in temporary */ 


void inner4(vec_ptr u, vec_ptr V，data_t *dest) 


{ 














long i; 

long length = vec_length(u); 
data_t *udata = get_vec_start(u); 
data_t *vdata = get_vec_start(v); 
data_t sum = (data_t) 0; 


oo Nm 上 wmwN 一 


\ 


for (i = 0; i < length; i++) { 
sum = sum + udata[i] * vdata[i]; 
} 


*dest = sum; 


人 ww 一 口 
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* 5. 14 


#5 15 


*5.16 


** 5. 17 


测试 显示 ， 对 于 整数 这 个 函数 的 CPE 等 于 1. 50， 对 于 浮 点 数据 CPE 等 于 3. 00。 对 于 数据 类 
型 double， 内 循环 的 x86-64 汇编 代码 如 下 所 示 : 


Tnner loop of inner4. data_t = double, OP = * 
udata im %rbp, vdata in Yrax, sum im YxmmO 


i iD Yrcx, limit in %rbx 


1 :ElB: loop: 

2 vmovsd 0(%rbp,%rcx,8), %xmml Get udata[i] 

3 vmulsd (%rax,%rcx,8), %xmml, %xmmlil Multiply by vdata[i] 
4 vaddsd %xmmil, %xmmO0, %xmmO Add to sum 

5 addq $1 Wrex Increment i 

6 cmpq %rbx, %rcx Compare i:1imit 

jne "L115 If !=, goto loop 


假设 功能 单元 的 特性 如 图 5-12 所 示 。 
A. 按照 图 5-13 和 图 5-14 的 风格 ， 画 出 这 个 指令 序列 会 如 何 被 译 码 成 操作 ， 并 给 出 它们 之 间 的 数 
据 相关 如 何 形成 一 条 操作 的 关键 路 径 。 
B. 对 于 数据 类 型 double， 这 条 关键 路 径 决定 的 CPE 的 下 界 是 什么 ? 
C. 假设 对 于 整数 代码 也 有 类 似 的 指令 序列 ， 对 于 整数 数据 的 关键 路 径 决定 的 CPE 的 下 界 是 什么 ? 
D. 请 解释 虽然 乘法 操作 需要 5 个 时 钟 周 期 ， 但 是 为 什么 两 个 浮 点 版 本 的 CPE 都 是 3. 00。 
编写 习题 5. 13 中 描述 的 内 积 过 程 的 一 个 版 本 ， 使 用 6X1 循环 展开 。 对 于 x86-64， 我 们 对 这 个 展 
开 的 版 本 的 测试 得 到 ， 对 整数 数据 CPE 为 1. 07， 而 对 两 种 浮 点 数据 CPE 仍然 为 3. 01。 
A. 解释 为 什么 在 Intel Core i7 Haswell 上 运行 的 任何 (标量 ) 版 本 的 内 积 过 程 都 不 能 达到 比 1. 00 更 
小 的 CPE 了 。 
B. 解释 为 什么 对 浮 点 数据 的 性 能 不 会 通过 循环 展开 而 得 到 提高 。 
编写 习题 5. 13 中 描述 的 内 积 过 程 的 一 个 版 本 ,使 用 6X6 循环 展开 。 对 于 x86-64， 我 们 对 这 个 函 
数 的 测试 得 到 对 整数 数据 的 CPE 为 1. 06 ， 对 浮 点 数据 的 CPE 为 1.01。 
什么 因素 制约 了 性 能 达到 CPE 等 于 1.00? 
编写 习题 5. 13 中 描述 的 内 积 过 程 的 一 个 版 本 ,使 用 6X 1a 循环 展开 产生 更 高 的 并 行 性 。 我 们 对 这 
个 函数 的 测试 得 到 对 整数 数据 的 CPE 为 1.10， 对 浮 点 数据 的 CPE 为 1.05。 
库 函 数 memset 的 原型 如 下 : 


void *memset(void *s, int c, size_t 1n); 


这 个 函数 将 从 s 开始 的 n 个 字 节 的 内 存 区 域 都 填充 为 c 的 低位 字 节 。 例 如 ， 通 过 将 参数 c 设置 为 
0， 可 以 用 这 个 函数 来 对 一 个 内 存 区 域 清 零 ， 不 过 用 其 他 值 也 是 可 以 的 。 
下 面 是 memset 最 直接 的 实现 : 


1 /* Basic implementation of memset */ 
2 void *basic_memset(void *s, int c, size_t n) 
得 ”总 

4 size_t cnt = 0; 

5 unsigned char *schar = s; 

6 while (cnt < n) { 

7 *schar++ = (unsigned char) c; 
8 cnt++; 

9 . 

10 return s; 

WW 


实现 该 函数 一 个 更 有 效 的 版 本 ， 使 用 数据 类 型 为 unsigned long 的 字 来 装 下 8 个 <， 然后 用 
字 级 的 写 遍 历 目标 内 存 区 域 。 你 可 能 发 现 增 加 额外 的 循环 展开 会 有 所 帮助 。 在 我 们 的 参考 机 上 ， 
能 够 把 CPE 从 直接 实现 的 1. 00 降低 到 0. 127。 即 ， 程 序 每 个 周期 可 以 写 8 个 字 节 。 

这 里 是 一 些 额 外 的 指导 原则 。 在 此 ， 假设 KK 表示 你 运行 程序 的 机 器 上 的 sizeof (unsigned 
long) 的 值 。 





人 


第 5 章 优化 程序 性 能 395 





@ 你 不 可 以 调用 任何 库 函数 。 

@ 你 的 代码 应 该 对 任意 n 的 值 都 能 工作 ,包括 当 它 不 是 K 的 倍数 的 时 候 。 你 可 以 用 类 似 于 使 用 循 
环 展开 时 完成 最 后 几 次 迭代 的 方法 做 到 这 一 点 。 

@ 你 写 的 代码 应 该 无 论 K 的 值 是 多 少 ， 都 能 够 正确 编译 和 运行 。 使 用 操作 sizeof 来 做 到 这 一 点 。 

@ 在 某 些 机 器 上 ， 未 对 齐 的 写 可 能 比 对 齐 的 写 慢 很 多 。( 在 某 些 非 x86 机 器 上 ， 未 对 齐 的 写 甚至 可 
能 会 导致 段 错误 。) 写 出 这 样 的 代码 ， 开 始 时 直到 目的 地 址 是 K 的 倍数 时 ， 使 用 字 节 级 的 写 ， 然 
后 进行 字 级 的 写 ，( 如 果 需 要 ) 最 后 采用 用 字 节 级 的 写 。 

@ 注意 cnt 足够 小 以 至 于 一 些 循环 上 界 变 成 负数 的 情况 。 对 于 涉及 sizeof 运算 符 的 表达 式 ， 可 以 
用 无 符号 运算 来 执行 测试 。( 参 见 2. 2. 8 节 和 家 庭 作 业 2.72。) 

#5.18 在 练习 题 5. 5 和 5. 6 中 我 们 考虑 了 多 项 式 求 值 的 任务 ， 既 有 直接 求 值 ， 也 有 用 Horner 方法 求 值 。 
试 着 用 我 们 讲 过 的 优化 技术 写 出 这 个 函数 更 快 的 版 本 ， 这 些 技术 包括 循环 展开 、 并 行 累 积 和 重新 
结合 。 你 会 发 现 有 很 多 不 同 的 方法 可 以 将 Horner 方法 和 直接 求 值 与 这 些 优化 技术 混合 起 来 。 
理想 状况 下 ， 你 能 达到 的 CPE 应 该 接近 于 你 的 机 器 的 吞吐 量 界限 。 我 们 的 最 佳 版 本 在 参考 机 上 能 
使 CPE 达到 1.07。 

#5.19 在 练习 题 5. 12 中 ， 我 们 能 够 把 前 置 和 计算 的 CPE 减少 到 3.00， 这 是 由 该 机 器 上 浮 点 加 法 的 延迟 
决定 的 。 简 单 的 循环 展开 没有 改进 什么 。 

使 用 循环 展开 和 重新 结合 的 组 合 ， 写 出 求 前 置 和 的 代码 ， 能 够 得 到 一 个 小 于 你 机 器 上 浮 点 加 
法 延迟 的 CPE。 要 达到 这 个 目标 ， 实 际 上 需要 增加 执行 的 加 法 次 数 。 例 如 ,我们 使 用 2 次 循环 展 
开 的 版 本 每 次 迭代 需要 3 个 加 法 ， 而 使 用 4 次 循环 展开 的 版 本 需要 5 个 。 在 参考 机 上 ,我们 的 最 
佳 实现 能 达到 CPE 为 1. 67。 

确定 你 的 机 器 的 吞吐 量 和 延迟 界限 是 如 何 限制 前 置 和 操作 所 能 达到 的 最 小 CPE 的 。 


练习 题 答案 


5.1 这 个 问题 说 明了 内 存 别名 使 用 的 某 些 细微 的 影响 。 
正如 下 面 加 了 注释 的 代码 所 示 ， 结 果 会 是 将 xp 处 的 值 设 置 为 0: 


4 *Xp = *Xp + *xp; /* 2X */ 
Ea *Xp = *Xp 一 *xp; /* 2x-2x = 0 */ 
6 *xp = *xp 一 *xp; /* 0-0 = 0 */ 


这 个 示例 说 明 我 们 关于 程序 行为 的 直觉 往往 会 是 错误 的 。 我 们 自然 地 会 认为 xp 和 yp 是 不 同 的 
情况 ， 却 忽略 了 它们 相等 的 可 能 性 。 错 误 通 常 源 自 程序 员 没 想到 的 情况 。 


”5.2 这 个 问题 说 明了 CPE 和 绝对 性 能 之 间 的 关系 。 可 以 用 初等 代数 解决 这 个 问题 。 我 们 发 现 对 于 n<<2， 


版 本 1 最 快 。 对 于 3 委 ” 委 7， 版 本 2 最 快 ， 而 对 于 "之 8， 版 本 3 最 快 。 
5.3， 这 是 个 简单 的 练习 ,但 是 认识 到 一 个 for 循环 的 4 个 语句 (初始 化 、 测 试 、 更 新 和 循环 体 ) 执 行 的 次 
数 是 不 同 的 很 重要 。 


incr square 





5.4 这 段 汇编 代码 展示 了 GCC 发 现 的 一 个 很 聪明 的 优化 机 会 。 要 更 好 地 理解 代码 优化 的 细微 之 处 ， 仔 
细 研 究 这 段 代码 是 很 值得 的 。 
A. 在 没 经 过 优化 的 代码 中 ， 寄 存 器 $xmmo0 简单 地 被 用 作 临 时 值 ， 每 次 循环 迭代 中 都 会 设置 和 使 用 。 
在 经 过 更 多 优化 的 代码 中 ， 它 被 使 用 的 方式 更 像 combine4 中 的 变量 x， 累 积 向 量 元 素 的 乘积 。 
不 过 ， 与 combine4 的 区 别 在 于 每 次 迭代 第 二 条 vmovsd 指令 都 会 更 新 位 置 dest。 
我 们 可 以 看 到 ， 这 个 优化 过 的 版 本 运行 起 来 很 像 下面 的 C 代码 : 





5:8 


5.6 


5 


/* Make sure dest updated on each iteration */ 


j 
2 void combine3w(vec_ptr vY，data_t *dest) 

3 

4 long i; 

5 long length = vec_length(v); 

6 data_t *data = get_vec_start(v); 

Fy data_t acc = IDENT; 

8 

9 /* Initialize in event length <= 0 */ 
10 *dest = acc; 

11 

讽 for (i = 0; i < length; i++) { 

性 acc = acc OP data[i]; 

14 *dest = acc; 

15 } 

16 } 


B. combine3 的 两 个 版 本 有 相同 的 功能 ， 甚 至 于 相同 的 内 存 别名 使 用 。 

C. 这 个 变换 可 以 不 改变 程序 的 行为 ， 因 为 ， 除 了 第 一 次 迭代 ， 每 次 迭代 开始 时 从 dest 读 出 的 值 和 
前 一 次 迭代 最 后 写 人 到 这 个 寄存 器 的 值 是 相同 的 。 因 此 ， 合 并 指令 可 以 简单 地 使 用 在 循环 开始 
时 就 已 经 在 %$xmm0 中 的 值 。 

多 项 式 求 值 是 解决 许多 问题 的 核心 技术 。 例 如 ， 多 项 式 函 数 常常 用 作对 数学 库 中 三 角 函 数 求 近 

似 值 。 

A. 这 个 函数 执行 2n 个 乘法 和 个 加 法 。 

B. 我 们 可 以 看 到 ， 这 里 限制 性 能 的 计算 是 反复 地 计算 表达 式 xpwr=x*xpwr。 这 需要 一 个 浮 点 数 乘 
法 (5 个 时 钟 周期 )， 并 且 直 到 前 一 次 迭代 完成 ， 下 一 次 迭代 的 计算 才能 开始 。 两 次 连续 的 迭代 之 
间 ， 对 result 的 更 新 只 需要 一 个 浮 点 加 法 (3 个 时 钟 周期 )。 

这 道 题 说 明了 最 小 化 一 个 计算 中 的 操作 数量 不 一 定 会 提高 它 的 性 能 。 

A. 这 个 函数 执行 n 个 乘法 和 个 加 法 ， 是 原始 函数 poly 中 乘法 数量 的 一 半 。 

B. 我 们 可 以 看 到 ， 这 里 的 性 能 限制 计算 是 反复 地 计算 表达 式 result=a[i]+x*result。 从 来 自 上 一 
次 迭代 的 result 的 值 开 始 ， 我 们 必须 先 把 它 乘 以 x(5 个 时 钟 周期 )， 然 后 把 它 加 上 a[i](3 个 时 
钟 周期 )， 然 后 得 到 本 次 迭代 的 值 。 因 此 ， 每 次 迭代 造成 了 最 小 延迟 时 间 8 个 周期 ， 正 好 等 于 我 
们 测量 到 的 CPE。 

C. 虽然 函数 poly 中 每 次 迭代 需要 两 个 乘法 ， 而 不 是 一 个 ， 但 是 只 有 一 条 乘法 是 在 每 次 迭代 的 关键 
路 径 上 出 现 。 

下 面 的 代码 直接 遵循 了 我 们 对 次 展开 一 个 循环 所 阐述 的 规则 : 


void unroll5(vec_ptr v, data_t *dest) 


1 

有 

3 long i; 

4 long length = vec_length(v); 

5 long limit = length-4; 

6 data_t *data = get_vec_start(v) ; 

7 data_t acc = IDENT; 

8 

9 /* Combine 5 elements at a time */ 

10 for (i = 0; i < limit; i+=5) { 

11 acc = acc OP data[i] OP data[i+1]; 
12 acc = acc OP data[i+2] OP data[i+3]; 
13 acc = acc OP data[i+4] ; 

14 } 

15 

16 /* Finish any remaining elements */ 

1 for (; i < length; i++) { 

18 acc = acc OP data[i]; 

19 } 

20 *dest = acc; 


| } 
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六 


这 道 题目 说 明了 程序 中 小 小 的 改动 可 能 会 造成 很 大 的 性 能 不 同 ， 特 别 是 在 乱 序 执行 的 机 器 上 。 图 5-39 
画 出 了 该 阻 数 一 次 迭代 的 3 个 乘法 操作 。 在 这 张 图 中 ， 关 键 路 径 上 的 操作 用 黑色 方 框 表示 一 一 它们 
需要 按照 顺序 计算 ,计算 出 循环 变量 + 的 新 值 。 浅 色 方 框 表示 的 操作 可 以 与 关键 路 径 操 作 并 行 地 计 
算 。 对 于 一 个 关键 路 径 上 有 P 个 操作 的 循环 ， 每 次 迭代 需要 最 少 5P 个 时 钟 周 期 ， 会 计算 出 3 个 元 
素 的 乘积 ， 得 到 CPE 的 下 界 5P/3。 也 就 是 说 ，Al 的 下 界 为 5. 00，A2 和 A5 的 为 3.33， 而 A3 和 
A4 的 为 1. 67。 我 们 在 Intel Core i7 Haswell 处 理 器 上 运行 这 些 函 数 ， 发 现 得 到 的 CPE 值 与 前 述 
一 致 。 




















Mls (rx) ty) sz AZ (rarry) js A: T(ty) rz) Ad4: r* (x* (y*z)) AS: (rr*x)* (y*2z) 





6; 


图 5-39 对 于 练习 题 5. 8 中 各 种 情况 乘法 操作 之 间 的 数据 相关 。 用 黑色 方 框 
表示 的 操作 形成 了 和 迭代 的 关键 路 径 


这 道 题 又 说 明了 编码 风格 上 的 小 变化 能 够 让 编译 器 更 容易 地 察觉 到 使 用 条 件 传送 的 机 会 ， 
while (it <n && i2 < n) {1 

long vi = srcl[il]; 

long v2 = src2[i2]; 

long takel = v1 < v2; 

dest[id++] = takel ? vi : v2; 

il += takel; 

i2 += (1-takel) ; 
} 


对 于 这 个 版 本 的 代码 ， 我 们 测量 到 CPE 大 约 为 12.0， 比 原始 的 CPE 15.0 有 了 明显 的 提高 。 


5.10 这 道 题 要 求 你 分 析 一 个 程序 中 潜在 的 加 载 -存储 相互 影响 。 


到 性 


. A. 对 于 0 委 i 和 和 998， 它 要 将 每 个 元 素 a[ 疏 设置 为 i 十 1。 


B. 对 于 1 委 ; 委 999， 它 要 将 每 个 元 素 a[ 朴 设置 为 0。 

C. 在 第 二 种 情况 中 ， 每 次 迭代 的 加 载 都 依赖 于 前 一 次 迭代 的 存储 结果 。 因 此 ， 在 连续 的 迭代 之 间 
有 写 / 读 相关 。 

D. 得 到 的 CPE 等 于 1.2， 与 示例 A 的 相同 ， 这 是 因为 存储 和 后 续 的 加 载 之 间 没 有 相关 。 

我 们 可 以 看 到 ， 这 个 函数 在 连续 的 迭代 之 间 有 写 / 读 相关 一 次 迭代 中 的 目的 值 p[i] 与 下 一 次 

迭代 中 的 源 值 p[i- 1] 相 同 。 因此， 每 次 迭代 形成 的 关键 路 径 就 包括 : 一 次 存储 (来 自前 一 次 选 

代 ), 一 次 加 载 和 一 次 浮 点 加 。 当 存在 数据 相关 时 ,测量 得 到 的 CPE 值 为 9.0, 与 write read 的 

CPE 测量 值 7. 3 是 一 致 的 ， 因 为 write_read 包括 一 个 整数 加 (1 时 钟 周期 延迟 )， 而 psuml 包括 一 

个 浮 点 加 (3 时 钟 周 期 延迟 ) 。 





下 面 是 对 这 个 函数 的 一 个 修改 版 本 : 

void psumla(float a[] float p[], long n) 
| 

3 long i; 

4 /* last_val holds pl[i-1]; val holds pfi] */ 
5 float last_val, val; 

6 last_val = p[0] = a[0]; 

区 for (i = 1; i < ni i++) { 

8 val = last_val + af[i]; 

9 p[i] = val; 

10 last_val = val; 

11 Bs 


12 } 


398 ”第 一 部 分 ”程序 结 榴 和 热 行 








我 们 引入 了 局 部 变量 last_ val。 在 迭代 i 的 开始 ，1last val 保存 着 p[i- 1] 的 值 。 然 后 我 们 计算 
val 为 p[i] 的 值 ， 也 是 last_val 的 新 值 。 

这 个 版 本 编译 得 到 如 下 汇编 代码 : 

Inner loop of psumila 


a in Yrdi, i in Yrax, cnt ip %rdx, last_val ip YxmmO 


1 ld6s loop: 

2 vaddss (%rdi,%rax,4), %xmm0, %xmm0 last val = val = 1ast_ val + a[i] 
3 vmovss “xmm0, (%rsi,%rax,4) Store val ip p[li] 

4 addq $1 Wrax Tncrement i 

3 cmpq %rdx, %rax Compare i:cnt 

6 jne .L16 If !=, goto loop 


这 段 代码 将 last_val 保存 在 $xmm0 中 ， 避 免 了 需要 从 内 存 中 读 出 p[i-1]， 因 而 消除 了 psuml 中 
看 到 的 写 / 读 相关 。 


第 6 章 
C H A 民 下 E R 6 
存储 如 层 次 结构 


到 目前 为 止 ， 在 对 系统 的 研究 中 ， 我 们 依赖 于 一 个 简单 的 计算 机 系统 模型 ，CPU 执 
行 指令 ， 而 存储 器 系统 为 CPU 存放 指令 和 数据 。 在 简单 模型 中 ， 存 储 器 系统 是 一 个 线性 
的 字 节 数组 ， 而 CPU 能 够 在 一 个 常数 时 间 内 访问 每 个 存储 器 位 置 。 虽 然 迄 今 为 止 这 都 是 
一 个 有 效 的 模型 ， 但 是 它 没 有 反映 现代 系统 实际 工作 的 方式 。 

实际 上 ， 存 储 器 系统 (memory system) 是 一 个 具有 不 同 容量 、 成 本 和 访问 时 间 的 存储 
设备 的 层次 结构 。CPU 寄存 器 保存 着 最 常用 的 数据 。 靠 近 CPU 的 小 的 、 快 速 的 高 速 缓存 
存储 器 (cache memory) 作 为 一 部 分 存储 在 相对 慢 速 的 主 存储 器 (main memory) 中 数据 和 指 
邻 的 缓冲 区 域 。 主 存 缓存 存储 在 容量 较 大 的 、 慢 速 磁 盘 上 的 数据 ， 而 这 些 磁盘 常常 又 作为 
存储 在 通过 网 络 连 接 的 其 他 机 器 的 磁盘 或 磁带 上 的 数据 的 缓冲 区 域 。 

存储 器 层次 结构 是 可 行 的 ， 这 是 因为 与 下 一 个 更 低层 次 的 存储 设备 相 比 来 说 ， 一 个 编 
写 良好 的 程序 倾向 于 更 频繁 地 访问 某 一 个 层次 上 的 存储 设备 。 所 以 ， 下 一 层 的 存储 设备 可 
以 更 慢 速 一 点 ， 也 因此 可 以 更 大 ， 每 个 比特 位 更 便宜 。 整 体 效果 是 一 个 大 的 存储 器 池 ， 其 
成 本 与 层次 结构 底层 最 便宜 的 存储 设备 相当 ， 但 是 却 以 接近 于 层次 结构 顶部 存储 设备 的 高 
速率 向 程序 提供 数据 。 

作为 一 个 程序 员 ， 你 需要 理解 存储 器 层次 结构 ， 因 为 它 对 应 用 程序 的 性 能 有 着 巨大 的 
影响 。 如 果 你 的 程序 需要 的 数据 是 存储 在 CPU 寄存 器 中 的 ， 那 么 在 指令 的 执行 期 间 ， 在 0 
个 周期 内 就 能 访问 到 它们 。 如 果 存 储 在 高 速 缓存 中 ， 需 要 4 一 75 个 周期 。 如 果 存 储 在 主 存 
中 , 需要 上 百 个 周期 。 而 如 果 存 储 在 磁盘 上 ， 需 要 大 约 几 千 万 个 周期 ! 

这 里 就 是 计算 机 系统 中 一 个 基本 而 持久 的 思想 : 如 果 你 理解 了 系统 是 如 何 将 数据 在 存 
储 器 层次 结构 中 上 上 下 下 移动 的 ， 那 么 你 就 可 以 编写 自己 的 应 用 程序 ， 使 得 它们 的 数据 项 
存储 在 层次 结构 中 较 高 的 地 方 ， 在 那里 CPU 能 更 快 地 访问 到 它们 。 

这 个 思想 围绕 着 计算 机 程序 的 一 个 称 为 局 部 性 (locality) 的 基本 属性 。 具 有 良好 局 部 性 
的 程序 倾向 于 一 次 又 一 次 地 访问 相同 的 数据 项 集合 ， 或 是 倾向 于 访问 邻近 的 数据 项 集合 。 
”具有 良好 局 部 性 的 程序 比 局 部 性 差 的 程序 更 多 地 倾向 于 从 存储 器 层次 结构 中 较 高 层次 处 访 
问 数据 项 ， 因 此 运行 得 更 快 。 例 如 ， 在 Core i7 系统 ， 不 同 的 矩阵 乘法 核心 程序 执行 相同 
数量 的 算术 操作 ， 但 是 有 不 同 程度 的 局 部 性 ， 它 们 的 运行 时 间 可 以 相差 40 售 ! 

在 本 章 中 ,我们 会 看 看 基本 的 存储 技术 一 一 SRAM 存储 器 、DRAM 存储 器 、ROM 存 
储 器 以 及 旋转 的 和 固态 的 硬盘 一 一 并 描述 它们 是 如 何 被 组 织 成 层次 结构 的 。 特 别 地 ， 我 们 
将 注意 力 集中 在 高 速 缓存 存储 器 上 ， 它 是 作为 CPU 和 主 存 之 间 的 缓存 区 域 ， 因 为 它们 对 





”应 用 程序 性 能 的 影响 最 大 。 我 们 向 你 展示 如 何 分 析 C 程序 的 局 部 性 ， 并 且 介 绍 改 进 你 的 程 


序 中 局 部 性 的 技术 。 你 还 会 学 到 一 种 描绘 某 台 机 器 上 存储 器 层次 结构 的 性 能 的 有 趣 方法 ， 
， 称 为 “存储 器 山 (memory mountain)”， 它 展示 出 读 访问 时 间 是 局 部 性 的 一 个 函数 。 

“6.1 存储 技术 

: 计算 机 技术 的 成 功 很 大 程度 上 源 自 于 存储 技术 的 巨大 进步 。 早 期 的 计算 机 只 有 几 千 字 








节 的 随机 访问 存储 器 。 最 早 的 IBM PC 甚至 于 没有 硬盘 。1982 年 引入 的 IBM PC-XT 有 10M 
字 节 的 磁盘 。 到 2015 年 ， 典 型 的 计算 机 已 有 300 000 倍 于 PC-XT 的 磁盘 存储 ， 而 且 磁 盘 
的 容量 以 每 两 年 加 倍 的 速度 增长 。 


6.1.1 随机 访问 存储 器 

随机 访问 存储 器 (Random-Access Memory，RAM) 分 为 两 类 : 静态 的 和 动态 的 。 静 态 
RAM(SRAM) 比 动态 RAM(DRAM) 更 快 , 但 也 贵 得 多 。SRAM 用 来 作为 高 速 缓存 存储 
器 ， 既 可 以 在 CPU 芯片 上 ， 也 可 以 在 片 下 。DRAM 用 来 作为 主 存 以 及 图 形 系统 的 帧 缓冲 
区 。 上 典型 地 ， 一 个 桌面 系统 的 SRAM 不 会 超过 几 兆 字 节 ， 但 是 DRAM 却 有 几 百 或 几 千 兆 
字 节 。 | 

1. 静态 RAM 

SRAM 将 每 个 位 存储 在 一 个 双 稳 态 的 (bistable) 存 储 器 单元 里 。 每 个 单元 是 用 一 个 六 
晶体 管 电路 来 实现 的 。 这 个 电路 有 这 样 一 个 属性 ， 它 可 以 无 限期 地 保持 在 两 个 不 同 的 电压 
配置 (configuration) 或 状态 (state) 之 一 。 其 他 任何 状态 都 是 不 稳定 的 一 一 从 不 稳定 状态 开 
台 ， 电 路 会 迅速 地 转移 到 两 个 稳定 状态 中 的 一 个 。 这 样 一 个 存储 器 单元 类 似 于 图 6-1 中 夯 
出 的 倒转 的 钟 摆 。 


不 稳定 状态 


图 6-1 倒转 的 钟 摆 。 同 SRAM 单元 一 样 ， 钟 摆 只 有 两 个 稳定 的 配置 或 状态 
当 钟 摆 倾 斜 到 最 左边 或 最 右边 时 ， 它 是 稳定 的 。 从 其 他 任何 位 置 ， 钟 摆 都 会 倒 向 一 边 


或 另 一 边 。 原 则 上 ， 钟 摆 也 能 在 垂直 的 位 置 无 限期 地 保持 平衡 ， 但 是 这 个 状态 是 亚 稳 态 的 
最 细微 的 扰动 也 能 使 它 倒 下 ， 而且 一 旦 倒 下 就 永远 不 会 再 恢复 到 垂直 的 





(metastable) 
位 置 。 

由 于 SRAM 存储 器 单元 的 双 稳 态 特 性 ， 只 要 有 电 ， 它 就 会 永远 地 保持 它 的 值 。 即 使 
有 干扰 (例如 电子 噪音 ?来 扰乱 电压 ， 当 干扰 消除 时 ， 电 路 就 会 恢复 到 稳定 值 。 

2. 动态 RAM 

DRAM 将 每 个 位 存储 为 对 一 个 电容 的 充电 。 这 个 电容 非常 小 ,通常 只 有 大 约 30 毫 微 
微 法 拉 (femtofarad) 30X10 法拉。 不 过 ， 回 想 一 下 法 拉 是 一 个 非常 大 的 计量 单位 
DRAM 存储 器 可 以 制造 得 非常 密集 一 一 每 个 单元 由 一 个 电容 和 一 个 访问 晶体 管 组 成 。 但 
是 , 与 SRAM 不 同 ，DRAM 存储 器 单元 对 干扰 非常 敏感 。 当 电容 的 电压 被 扰乱 之 后 , 它 
就 永远 不 会 恢复 了 。 暴 露 在 光线 下 会 导致 电容 电压 改变 。 实 际 上 ， 数 码 照 相机 和 摄像 机 中 
的 传感器 本 质 上 就 是 DRAM 单元 的 阵列 。 

很 多 原因 会 导致 漏电 ,使 得 DRAM 单元 在 10 一 100 上 毫秒 时 间 内 失去 电荷 。 幸 运 的 是 ， 
计算 机 运行 的 时 钟 周 期 是 以 纳 秒 来 衡量 的 ， 所 以 相对 而 言 这 个 保持 时 间 蚌 比较 长 的 。 内 存 
系统 必须 周期 性 地 通过 读 出 ， 然 后 重 写 来 刷新 内 存 每 一 位 。 有 些 系统 也 使 用 纠 错 码 ， 其 中 
计算 机 的 字 会 被 多 编码 几 个 位 (例如 64 位 的 字 可 能 用 72 位 来 编码 )， 这 样 一 来 ， 电 路 可 以 
发 现 并 纠正 一 个 字 中 任何 单个 的 错误 位 。 








图 6-2 总 结 了 SRAM 和 DRAM 存储 器 的 特性 。 只 要 有 供电 ，SRAM 就 会 保持 不 变 。 
与 DRAM 不 同 ， 它 不 需要 刷新 。SRAM 的 存 取 比 DRAM 快 。SRAM 对 诸如 光 和 电 噪 声 
这 样 的 干扰 不 敏感 。 代 价 是 SRAM 单元 比 DRAM 单元 使 用 更 多 的 晶体 管 ， 因 而 密集 度 
低 ， 而 且 更 贵 ， 功 耗 更 大 。 


| 每 位 晶体 管 数 | 相对 访问 时 间 | ”持续 的 ? 敏感 的 ? | 相对 花费 | 应 用 | 
SRAM 6 1X 是 否 | 1000x | 高 速 缓存 存储 器 | 
DRAM 1 10X 否 是 | 1X | 主 存 ， 帧 缓冲 区 | 


图 6-2 DRAM 和 SRAM 存储 器 的 特性 

















3. 传统 的 DRAM 

DRAM 芯片 中 的 单元 (位 ) 被 分 成 & 个 超 单元 (supercell)， 每 个 超 单元 都 由 包 个 DRAM 
单元 组 成 。 一 个 4Xw 的 DRAM 总 共存 储 了 dw 位 信息 。 超 单元 被 组 织 成 一 个 + 行 c 列 的 长 
方形 阵列 ， 这 里 rc 二 d。 每 个 超 单元 有 形 如 (i，j) 的 地 址 ， 这 里 i 表示 行 ， 而 j 表示 列 。 

例如 ， 图 6-3 展示 的 是 一 个 16X8 的 DRAM 芯片 的 组 织 ， 有 4d 二 16 个 超 单元 ， 每 个 超 单 
元 有 w= 二 8 位，r 二 4 行 ，c 二 4 列 。 带 阴影 的 方 框 表 示 地 址 (2，1) 处 的 超 单 元 。 信 息 通过 称 为 
引 脚 (pin) 的 外 部 连接 器 流 人 和 流出 芯片 。 每 个 引 脚 携带 一 个 1 位 的 信和 号。 图 6-3 给 出 了 两 组 
引 脚 : 8 个 aata 引 脚 ， 它 们 能 传送 一 个 字 节 到 芯片 或 从 芯片 传 出 一 个 字 节 ， 以 及 2 个 addr 
引 脚 ， 它 们 携带 2 位 的 行 和 列 超 单元 地 址 。 其 他 携带 控制 信息 的 引 脚 没有 显示 出 来 。 





i 
人 


(到 CPU ) 














图 6-3 一 个 128 位 16X8 的 DRAM 芯片 的 高 级 视图 


国 关于 术语 的 注释 

存储 领域 从 来 没有 为 DRAM 的 阵列 元 素 确 定 一 个 标准 的 名 字 。 计 算 机 构架 师 倾 向 
于 称 之 为 “单元 ”， 使 这 个 术语 具有 DRAM 存储 单元 之 意 。 电 路 设计 者 倾向 于 称 之 为 
“ 字 ”， 使 之 具有 主 存 一 个 字 之 意 。 为 了 避免 混淆 ， 我 们 采用 了 无 歧义 的 术语 “ 超 单元 ”。 


每 个 DRAM 芯片 被 连接 到 某 个 称 为 内 存 控制 器 (memory controller) 的 电路 ， 这 个 电 
路 可 以 一 次 传送 w 位 到 每 个 DRAM 芯片 或 一 次 从 每 个 DRAM 芯片 传 出 双 位 。 为 了 读 出 
超 单元 (:，7) 的 内 容 ， 内 存 控制 器 将 行 地 址 ;发送 到 DRAM， 然 后 是 列 地 址 7)。DRAM 把 
超 单 元 (i， 站 的 内 容 发 回 给 控制 占 作 为 响应 。 行 地 址 i 称 为 RAS(Row Access Strobe， 行 
访问 选 通 脉冲 ) 请 求 。 列 地 址 7 称 为 CAS(Column Access Strobe， 列 访问 选 通 脉冲 ) 请 求 。 
注意 ，RAS 和 CAS 请求 共 享 相同 的 DRAM 地 址 引 脚 。 
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例如 ， 要 从 图 6-3 中 16X8 的 DRAM 中 读 出 超 单元 (2，1)， 内 存 控制 器 发 送行 地 址 
2， 如 图 6-4a 所 示 。DRAM 的 响应 是 将 行 2 的 整个 内 容 都 复制 到 一 个 内 部 行 缓冲 区 。 接 下 
来 ， 内 存 控制 器 发 送 列 地 址 1， 如 图 6-4b 所 示 。DRAM 的 响应 是 从 行 缓冲 区 复制 出 超 单 
元 (2，1) 中 的 8 位 ， 并 把 它们 发 送 到 内 存 控制 器 。 


DRAM 芯 片 



































a ) 选择 行 2 (RAS 请 求 ) b ) 选择 列 1 (CAS 请 求 ) 


图 6-4 读 一 个 DRAM 超 单元 的 内 容 


电路 设计 者 将 DRAM 组 织 成 二 维 阵列 而 不 是 线性 数组 的 一 个 原因 是 降低 芯片 上 地 址 
引 脚 的 数量 。 例 如 ， 如 果 示 例 的 128 位 DRAM 被 组 织 成 一 个 16 个 超 单元 的 线性 数组 ， 地 
址 为 0 一 15， 那 么 芯片 会 需要 4 个 地 址 引 脚 而 不 是 2 个 。 二 维 阵 列 组 织 的 缺点 是 必须 分 两 
步 发 送 地 址 ， 这 增加 了 访问 时 间 。 

4. 内 存 模块 

DRAM 芯片 封装 在 内 存 模块 (memory module) 中 ， 它 插 到 主板 的 扩展 构 上 。Core i7 
系统 使 用 的 240 个 引 脚 的 双 列 直 插 内 存 模块 (Dual Inline Memory Module，DIMM) ， 它 以 
64 位 为 块 传送 数据 到 内 存 控制 器 和 从 内 存 控制 器 传 出 数据 。 

图 6-5 展示 了 一 个 内 存 模块 的 基本 思想 。 示 例 模 块 用 8 个 64 Mbit 的 8 MX8 的 DRAM 
芯片 ， 总 共存 储 64MB( 兆 字 节 )， 这 8 个 芯片 编号 为 0 一 7。 每 个 超 单元 存储 主 存 的 一 个 字 节 ， 
而 用 相应 超 单 元 地 址 为 (:，7 思 的 8 个 超 单元 来 表示 主 存 中 字 节 地 址 A 处 的 64 位 字 。 在 图 6-5 
的 示例 中 ，DRAM 0 存储 第 一 个 (低位 ) 字 节 ，DRAM 1 存储 下 一 个 字 节 ， 依 此 类 推 。 

要 取出 内 存 地 址 A 处 的 一 个 字 ， 内 存 控制 器 将 A 转换 成 一 个 超 单元 地 址 (i，j;)， 并 将 
它 发 送 到 内 存 模块 ， 然 后 内 存 模块 再 将 ; 和 j 广播 到 每 个 DRAM。 作 为 响应 ， 每 个 
DRAM 输出 它 的 (i, 站 超 单元 的 8 位 内 容 。 模 块 中 的 电路 收集 这 些 输出 ， 并 把 它们 合并 成 
一 个 64 位 字 ， 再 返回 给 内 存 控制 器 。 

通过 将 多 个 内 存 模块 连接 到 内 存 控制 器 ， 能 够 聚合 成 主 存 。 在 这 种 情况 中 ， 当 控制 器 
收 到 一 个 地 址 A 时 ， 控 制 器 选择 包含 A 的 模块 ， 将 A 转换 成 它 的 人 (z，7) 的 形式 ， 并 将 
(i， 站 发 送 到 模块 &。 

攻 人 | 练习 题 6. 1 接 下 来 ， 设 +r 表示 一 个 DRAM 阵列 中 的 行 数 ，c 表示 列 数 ，b, 表示 行 寻 
址 所 需 的 位 数 ，b. 表示 列 寻 址 所 需 的 位 数 。 对 于 下 面 每 个 DRAM， 确 定 2 的 军 数 的 
阵列 维 数 ， 使 得 max(5,，5b.) 最 小 ，max(b,，b.) 是 对 阵列 的 行 或 列 寻 址 所 需 的 位 数 中 
较 大 的 值 。 
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addr (row = i, col = j) 
口 : 超 单元 (i, j) 
由 8 个 8M x 8 的 
DRAM 组 成 的 64MB 
内 存 模块 
0~7 
位 
63 5655 4847 4039 3231 2423 1615 87 
内 存 

控制 器 


位 于 主 存 地 址 A 处 的 64 位 字 





到 CPU 芯片 的 64 位 字 


图 6-5 读 一 个 内 存 模块 的 内 容 


5. 增强 的 DRAM 


有 许多 种 DRAM 存储 器 ， 而 生产 厂商 试图 跟 上 迅速 增长 的 处 理 器 速度 ， 市 场 上 就 会 


定期 推出 新 的 种 类 。 每 种 都 是 基于 传统 的 DRAM 单元 ， 并 进行 一 些 优化 ， 提 高 访问 基本 
”DRAM 单元 的 速度 。 


@ 快 页 模式 DRAM(Fast Page Mode DRAM，FPM DRAM)。 传统 的 DRAM 将 超 单 
元 的 一 整 行 复制 到 它 的 内 部 行 缓冲 区 中 ,使 用 一 个 ， 然 后 丢弃 剩余 的 。FPM 
DRAM 允许 对 同一 行 连续 地 访问 可 以 直接 从 行 缓冲 区 得 到 服务 ， 从 而 改进 了 这 一 
点 。 例 如 ， 要 从 一 个 传统 的 DRAM 的 行 i 中 读 4 个 超 单 元 ， 内 存 控制 器 必须 发 送 4 
个 RAS/CAS 请 求 ， 即 使 是 行 地 址 i 在 每 个 情况 中 都 是 一 样 的 。 要 从 一 个 FPM 
DRAM 的 同一 行 中 读 取 超 单元 ， 内 存 控制 器 发 送 第 一 个 RAS/CAS 请 求 ， 后面 跟 三 
个 CAS 请 求 。 初 始 的 RAS/CAS 请 求 将 行 ? 复 制 到 行 缓冲 区 ， 并 返回 CAS 寻 址 的 那个 
超 单元 。 接 下 来 三 个 超 单元 直接 从 行 缓冲 区 获得 ， 因 此 返回 得 比 初始 的 超 单元 更 快 。 
@ 扩展 数据 输出 DRAM(Extended Data Out DRAM，EDO DRAM)。FPM DRAM 的 
一 个 增强 的 形式 ， 它 允许 各 个 CAS 信和 号 在 时 间 上 靠 得 更 紧密 一 点 。 
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@ 同步 DRAM(Synchronous DRAM，SDRAM)。 就 它们 与 内 存 控制 器 通信 使 用 一 组 显 式 的 
控制 信号 来 说 ， 常 规 的 、FPM 和 EDO DRAM 都 是 异步 的 。SDRAM 用 与 驱动 内 存 控制 
器 相同 的 外 部 时 钟 信 号 的 上 升 沿 来 代替 许多 这 样 的 控制 信号 。 我 们 不 会 深入 讨论 细节 ， 
最 终 效 果 就 是 SDRAM 能 够 比 那些 异步 的 存储 器 更 快 地 输出 它 的 超 单元 的 内 容 。 

双 倍 数据 速率 同步 DRAM(Double Data-Rate Synchronous DRAM，DDR SDRAM)。 
DDR SDRAM 是 对 SDRAM 的 一 种 增强 ， 它 通过 使 用 两 个 时 钟 沿 作为 控制 信和 号 ， 
从 而 使 DRAM 的 速度 翻 倍 。 不 同类 型 的 DDR SDRAM 是 用 提高 有 效 带 宽 的 很 小 的 
预 取 缓冲 区 的 大 小 来 划分 的 : DDR(2 位 )、DDR2(4 位 ) 和 DDR(8 位 )。 

视频 RAM(Video RAM，VRAM)。 它 用 在 图 形 系统 的 帧 缓冲 区 中 。VRAM 的 思想 
与 FPM DRAM 类 似 。 两 个 主要 区 别 是 : 1) VRAM 的 输出 是 通过 依次 对 内 部 缓冲 
区 的 整个 内 容 进行 移 位 得 到 的 ; 2) VRAM 允许 对 内 存 并 行 地 读 和 写 。 因 此 ， 系 统 
可 以 在 写 下 一 次 更 新 的 新 值 ( 写 ) 的 同时 ， 用 帧 缓冲 区 中 的 像素 刷 屏幕 ( 读 )。 


直到 1995 年 ， 大 多 数 PC 都 是 用 FPM DRAM 构造 的 。1996 一 1999 年 ，EDO 
DRAM 在 市 场 上 占据 了 主导 ,而 FPM DRAM 几乎 销声匿迹 了 。SDRAM 最 早出 现在 
1995 年 的 高 端 系统 中 ， 到 2002 年 ， 大 多 数 PC 都 是 用 SDRAM 和 DDR SDRAM 制造 
的 。 到 2010 年 之 前 ， 大 多 数 服 务 器 和 桌面 系统 都 是 用 DDR3 SDRAM 构造 的 。 实 际 上 ， 
Intel Core i7 只 支持 DDR3 SDRAM。 


6. 非 易 失 性 存储 器 

如 果断 电 ，DRAM 和 SRAM 会 丢失 它们 的 信息 ， 从 这 个 意义 上 说 ， 它 们 是 易 失 的 
(volatile) 。 另 一 方面 ， 非 易 失 性 存储 器 (nonvolatile memory) 即 使 是 在 关 电 后 ， 仍 然 保存 
着 它们 的 信息 。 现 在 有 很 多 种 非 易 失 性 存储 器 。 由 于 历史 原因 ， 虽 然 ROM 中 有 的 类 型 既 
可 以 读 也 可 以 写 ， 但 是 它们 整体 上 都 被 称 为 只 读 存储 器 (Read-Only Memory，ROM)。 
ROM 是 以 它们 能 够 被 重 编程 ( 写 ) 的 次 数 和 对 它们 进行 重 编程 所 用 的 机 制 来 区 分 的 。 

PROM(Programmable ROM， 可 编程 ROM) 只 能 被 编程 一 次 。PROM 的 每 个 存储 器 
单元 有 一 种 熔 丝 (fuse) ， 只 能 用 高 电流 熔断 一 次 。 

可 擦 写 可 编程 ROM(Erasable Programmable ROM，EPROM) 有 一 个 透明 的 石英 窗 
口 ， 人 允许 光 到 达 存 储 单元 。 紫 外 线 光 照射 过 窗口 ，EPROM 单元 就 被 清除 为 0。 对 
EPROM 编程 是 通过 使 用 一 种 把 1 写 人 EPROM 的 特殊 设备 来 完成 的 。EPROM 能 够 被 控 
除 和 重 编程 的 次 数 的 数量 级 可 以 达到 1000 次 。 电 子 可 擦 除 PROM (Electrically Erasable 
PROM，EEPROM) 类 似 于 EPROM， 但 是 它 不 需要 一 个 物理 上 独立 的 编程 设备 ， 因 此 可 
以 直接 在 印 制 电路 卡 上 编程 。EEPROM 能 够 被 编程 的 次 数 的 数量 级 可 以 达到 105 次 。 

闪存 (flash memory) 是 一 类 非 易 失 性 存储 器 ， 基 于 EEPROM， 它 已 经 成 为 了 一 种 重 
要 的 存储 技术 。 闪 存 无 处 不 在 ， 为 大 量 的 电子 设备 提供 快速 而 持久 的 非 易 失 性 存储 ， 包 括 
数码 相机 、 手 机 、 音 乐 播放 器 、PDA 和 笔记 本 、 人 台式 机 和 服务 器 计算 机 系统 。 在 6.1.3 
节 中 ， 我 们 会 仔细 研究 一 种 新 型 的 基于 闪存 的 磁盘 驱动 器 ， 称 为 固态 硬盘 (Solid State 
Disk，SSD)， 它 能 提供 相对 于 传统 旋转 磁盘 的 一 种 更 快速 、 更 强健 和 更 低能 耗 的 选择 。 

存储 在 ROM 设备 中 的 程序 通常 被 称 为 固件 (firmware)。 当 一 个 计算 机 系统 通电 以 后 ， 
它 会 运行 存储 在 ROM 中 的 固件 。 一 些 系统 在 固件 中 提供 了 少量 基本 的 输入 和 输出 函 
数 一 一 例如 PC 的 BIOS( 基 本 输入 /输出 系统 ) 例 程 。 复 杂 的 设备 ， 像 图 形 卡 和 磁盘 驱动 控 








制 器 ， 也 依赖 固件 翻译 来 自 CPU 的 IO( 输 入 /输出 ) 请 求 。 

7. 访问 主 存 

数据 流通 过 称 为 总 线 (bus) 的 共享 电子 电路 在 处 理 器 和 DRAM 主 存 之 间 来 来 回回 。 每 
次 CPU 和 主 存 之 间 的 数据 传送 都 是 通过 一 系列 步 又 来 完成 的 ， 这 些 步 又 称 为 总 线 事务 
(bus transaction) 。 读 事务 (read transaction) 从 主 存 传 送 数据 到 CPU。 写 事务 (write trans- 
action) 从 CPU 传送 数据 到 主 存 。 

总 线 是 一 组 并 行 的 导线 ， 能 携带 地 址 、 数 据 和 控制 信号 。 取 决 于 总 线 的 设计 ， 数 据 和 
地 址 信号 可 以 共享 同一 组 导线 ， 也 可 以 使 用 不 同 的 。 同 时 ， 两 个 以 上 的 设备 也 能 共享 同一 
总 线 。 控 制 线 携带 的 信号 会 同步 事务 ， 并 标识 出 当前 正在 被 执行 的 事务 的 类 型 。 例 如 ， 当 
前 关注 的 这 个 事务 是 到 主 存 的 吗 ? 还 是 到 诸如 磁盘 控制 器 这 样 的 其 他 W/O 设备 ?这 个 事务 
是 读 还 是 写 ? 总 线 上 的 信息 是 地 址 还 是 数据 项 ? 

图 6-6 展示 了 一 个 示例 计算 机 系统 的 配置 。 主 要 部 件 是 CPU 芯片 、 我 们 将 称 为 IO 
桥接 器 (IO bridge) 的 芯片 组 (其 中 包括 内 存 控制 器 )， 以 及 组 成 主 存 的 DRAM 内 存 模块 。 
这 些 部 件 由 一 对 总 线 连接 起 来 ， 其 中 一 条 总 线 是 系统 总 线 (system bus)， 它 连接 CPU 和 
IO 桥接 器 ， 另 一 条 总 线 是 内 存 总 线 C(memory bus)， 它 连接 I/O 桥接 器 和 主 存 。I/O 桥接 
器 将 系统 总 线 的 电子 信号 翻译 成 内 存 总 线 的 电子 信号 。 正 如 我 们 看 到 的 那样 ，I/O 桥 也 将 
系统 总 线 和 内 存 总 线 连接 到 I/O 总 线 ， 像 磁盘 和 图 形 卡 这 样 的 1/O 设备 共享 I/O 总 线 。 不 
过 现在 ， 我 们 将 注意 力 集中 在 内 存 总 线 上 。 


CPU 芯片 













寄存 器 文件 
系统 总 线 内 存 总 线 


en] | 


图 6-6 连接 CPU 和 主 存 的 总 线 结构 示例 


旁 注 | 关于 总 线 设 计 的 注释 

总 线 设 计 是 计算 机 系统 一 个 复杂 而 且 变 化 迅速 的 方面 。 不 同 的 厂商 提出 了 不 同 的 总 线 
体系 结构 ， 作 为 产品 差异 化 的 一 种 方法 。 例 如 ，Intel 系统 使 用 称 为 北桥 Cnorthbridge) 和 南 
桥 (southbridge) 的 芯片 组 分 别 将 CPU 连接 到 内 存 和 I/O 〇 设备 。 在 比较 老 的 Pentium 和 Core 
2 系统 中 ， 前 端 总 线 (Front Side Bus，FSB) 将 CPU 连接 到 北桥 。 来 自 AMD 的 系统 将 FSB 
替换 为 超 传 输 (HyperTiransport ) 互 联 ， 而 更 新 一 些 的 Intel Core i7 系统 使 用 的 是 快速 通道 
(QuickPath) 互 联 。 这 些 不 同 总 线 体系 结构 的 细节 超出 了 本 书 的 范围 。 反 之 ,我 们 会 使 用 图 
6-6 中 的 高 级 总 线 体 系 结构 作为 一 个 运行 示例 贯穿 本 书 。 这 是 一 个 简单 但 是 有 用 的 抽象 ， 
使 得 我 们 可 以 很 具体 ， 并 且 可 以 掌握 主要 思想 而 不 必 与 任何 私有 设计 的 细节 绑 得 太 紧 。 


考虑 当 CPU 执行 一 个 如 下 加 载 操作 时 会 发 生 什 么 


movq A,hrax 


\ 这 里 ， 地 址 A 的 内 容 被 加 载 到 寄存 器 srax 中 。CPU 芯片 上 称 为 总 线 接 口 (bus interface) 
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的 电路 在 总 线 上 发 起 读 事务 。 读 事务 是 由 三 个 步骤 组 成 的 。 首 先 ，CPU 将 地 址 A 放 到 系 
统 总 线 上 。I/O 桥 将 信号 传递 到 内 存 总 线 (图 6-7a) 。 接 下 来 ， 主 存 感觉 到 内 存 总 线 上 的 地 
址 信号 ， 从 内 存 总 线 读 地 址 ， 从 DRAM 取出 数据 字 ， 并 将 数据 写 到 内 存 总 线 。I/O 桥 将 
内 存 总 线 信号 翻译 成 系统 总 线 信 号 ， 然 后 沿 着 系统 总 线 传 递 ( 图 6-7b)。 最 后 ，CPU 感觉 
到 系统 总 线 上 的 数据 ， 从 总 线 上 读数 据 ， 并 将 数据 复制 到 寄存 器 srax( 图 6-7c) 。 


寄存 器 文件 


至 
rax 


寄存 器 文件 
主 存 


LO 桥 0 


二 


b ) 主 存 从 总 线 读 出 4， 取 出 字 x， 然 后 将 x 放 到 总 线 上 


寄存 器 文件 





c) CPU 从 总 线 读 出 字 x， 并 将 它 复制 到 寄存 器 $rax 中 
图 6-7 加 载 操 作 movqaA,srax 的 内 存 读 事务 


反 过 来 ， 当 CPU 执行 一 个 像 下 面 这 样 的 存储 操作 时 

movq %rax,A 
这 里 ， 寄 存 器 srax 的 内 容 被 写 到 地 址 A，CPU 发 起 写 事务 。 同 样 ， 有 三 个 基本 步骤 。 首 先 ， 
CPU 将 地 址 放 到 系统 总 线 上 。 内 存 从 内 存 总 线 读 出 地 址 ， 并 等 待 数据 到 达 ( 图 6-8a) 。 接 下 
来 ，CPU 将 srax 中 的 数据 字 复 制 到 系统 总 线 (图 6-8b) 。 最 后 ， 主 存 从 内 存 总 线 读 出 数据 
字 ， 并 且 将 这 些 位 存储 到 DRAM 中 (图 6-8c)。 


6. 1.2 磁盘 存储 

磁盘 是 广 为 应 用 的 保存 大 量 数据 的 存储 设备 ， 存 储 数据 的 数量 级 可 以 达到 几 百 到 几 千 
干 兆 字 节 ， 而 基于 RAM 的 存储 器 只 能 有 几 百 或 几 千 兆 字 节 。 不 过 ， 从 磁盘 上 读 信 息 的 时 
间 为 毫秒 级 ， 比 从 DRAM 读 慢 了 10 万 倍 ， 比 从 SRAM 读 慢 了 100 万 倍 。 
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寄存 器 文件 


Srax 三 
主 存 
IO 桥 本 0 
一 二 小 


a) CPU 将 地 址 4 放 到 内 存 总 线 。 主 存 读 出 这 个 地 址 ， 并 等 待 数据 字 





b ) CPU 将 数据 字 y 放 到 总 线 上 


寄存 器 文件 


Srax 司 ALU 
IO 桥 0 
J]? ea 


c ) 主 存 从 总 线 读数 据 字 y， 并 将 它 存储 在 地 址 4 
图 6-8 存储 操作 movgq gs rax,A 的 内 存 写 事 务 


1. 磁盘 构造 
人 磁盘 是 由 盘 片 (platter) 构 成 的 。 每 个 盘 片 有 两 面 或 者 称 为 表面 (surface)， 表 面 履 盖 着 


， 磁性 记录 材料 。 盘 片 中 央 有 一 个 可 以 旋转 的 主轴 (spindle)， 它 使 得 盘 片 以 固定 的 旋转 速率 








“(rotational rate) 旋 转 ， 通常 是 5400 一 15 000 转 每 分 钟 (Revolution Per Minute，RPM) 。 磁 
。 盘 通 常 包 含 一 个 或 多 个 这 样 的 盘 片 ， 并 封装 在 一 个 密封 的 容器 内 。 
图 6-9a 展示 了 一 个 典型 的 磁盘 表面 的 结构 。 每 个 表面 是 由 一 组 称 为 磁道 (track) 的 同 
， 心 圆 组 成 的 。 每 个 磁道 被 划分 为 一 组 扇 区 (sector) 。 每 个 遍 区 包含 相等 数量 的 数据 位 (通常 
”是 512 字 节 )， 这 些 数据 编码 在 扇 区 上 的 磁性 材料 中 。 扇 区 之 间 由 一 些 间 阶 (gap) 分 隔 开 ， 
。 这 些 间 辽 中 不 存储 数据 位 。 间 隙 存储 用 来 标识 扇 区 的 格式 化 位 。 
位 盘 是 由 一 个 或 多 个 倒 放 在 一 起 的 盘 片 组 成 的 ， 它 们 被 封装 在 一 个 密封 的 包装 里 ， 如 
图 6-9b 所 示 。 整 个 装置 通常 被 称 为 磁盘 驱动 器 (disk drive)， 我 们 通常 简称 为 磁盘 (disk)。 
有 时 ,我 们 会 称 磁 盘 为 旋转 磁盘 (rotating disk)， 以 使 之 区 别 于 基于 闪存 的 固态 硬盘 
(SSD)，SSD 是 没有 移动 部 分 的 。 

磁盘 制造 商 通 常用 术语 柱 面 (cylinder) 来 描述 多 个 盘 片 驱动 器 的 构造 ， 这 里 ， 柱 面 是 
所 有 盘 片 表面 上 到 主轴 中 心 的 距离 相等 的 磁道 的 集合 。 例 如 ， 如 果 一 个 驱动 器 有 三 个 盘 片 
和 六 个 面 ， 每 个 表面 上 的 磁道 的 编号 都 是 一 致 的 ， 那 么 柱 面 & 就 是 6 个 磁道 的 集合 。 

















面 0 让 
面 1 < 盘 片 0 
面 2 
局 盘 片 1 
4 
ee 盘 片 2 
主轴 
a ) 一 个 盘 片 的 视图 b ) 多 个 盘 片 的 视图 
图 6-9 磁盘 构造 
2. 磁盘 容量 
一 个 磁盘 上 可 以 记录 的 最 大 位 数 称 为 它 的 最 大 容量 ， 或 者 简称 为 容量 。 磁 盘 容 量 是 由 
以 下 技术 因素 决定 的 : 


@ 记录 密度 (recording density)( 位 /英寸 ); 磁道 一 英寸 的 段 中 可 以 放 入 的 位 数 。 
@ 磁道 密度 (track density)( 道 /英寸 ): 从 盘 片 中 心 出 发 半径 上 一 英寸 的 段 内 可 以 有 的 
@ 面 密度 (areal density)( 位 /平方 英寸 ): 记录 密度 与 磁道 密度 的 乘积 。 
磁盘 制造 商 不 懈 地 努力 以 提高 面 密 度 ( 从 而 增加 容量 )， 而 面 密度 每 隔 几 年 就 会 翻 倍 ， 
最 初 的 磁盘 ， 是 在 面 密度 很 低 的 时 代 设 计 的 ， 将 每 个 磁道 分 为 数目 相同 的 忆 区 ， 书 区 的 数 
目 是 由 最 靠 内 的 磁道 能 记录 的 扇 区 数 决定 的 。 为 了 保持 每 个 磁道 有 固定 的 扇 区 数 ， 越 往外 
的 磁道 扇 区 隔 得 越 开 。 在 面 密 度 相 对 比较 低 的 时 候 ， 这 种 方法 还 算 合 理 。 不 过 ， 随 着 面 密 
度 的 提高 ， 扇 区 之 间 的 间隙 (那里 没有 存储 数据 位 ? 变 得 不 可 接受 地 大 。 因 此 ， 现 代 大 容量 
磁盘 使 用 一 种 称 为 多 区 记录 (multiple zone recording) 的 技术 ， 在 这 种 技术 中 ， 柱 面 的 集合 
被 分 割 成 不 相交 的 子 集合 ， 称 为 记录 区 (recording zone) 。 每 个 区 包含 一 组 连续 的 柱 面 。 一 
个 区 中 的 每 个 柱 面 中 的 每 条 磁道 都 有 相同 数量 的 扇 区 ， 这 个 扇 区 的 数量 是 由 该 区 中 最 里 面 
的 磁道 所 能 包含 的 扇 区 数 确 定 的 。 
下 面 的 公式 给 出 了 一 个 磁盘 的 容量 : 
 ”，、，。 字 节 下 区 遍 区 yy 
磁盘 容量 一 二 x 数 x i x 和 四 x 2 
例如 ， 假 设 我 们 有 一 个 磁盘 ， 有 5 个 盘 片 ， 每 个 扁 区 512 个 字 节 ， 每 个 面 20 000 条 磁道 ， 
每 条 磁道 平均 300 个 扇 区 。 那 么 这 个 磁盘 的 容量 
磁盘 容量 512 字 节 、300 肩 区 、 20 000 磁道 2 表面 5 办 片 














扇 区 磁道 表面 盘 片 磁盘 
一 30 720 000 000 字 节 
=30.72 GB 


注意 ， 制 造 商 是 以 千 兆 字 节 (GB) 或 兆 兆 字 节 (TB) 为 单位 来 表达 磁盘 容量 的 ， 这 里 
1GB 一 10? 字 节 ，1TB 一 102 字 节 。 


国 到 一 后 光 字 节 有 多 大 


不 幸 地 ， 像 K(kilo)、M(mega)、G(giga) 和 T(tera) 这 样 的 前 组 的 含义 依赖 于 上 下 
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文 。 对 于 与 DRAM 和 SRAM 容量 相关 的 计量 单位 ， 通 常 K 二 2*，M 一 2”，G 一 2”， 而 
T=2*。 对 于 与 像 磁盘 和 网 络 这 样 的 I/O 设备 容量 相关 的 计量 单位 ， 通 常 K==10， 
M 王 10" ，G 王 10" ,而 二 10”*。 速 率 和 吞吐 量 常常 也 使 用 这 些 前 组 。 

幸运 地 ， 对 于 我 们 通常 依赖 的 不 需要 复杂 计算 的 估计 值 ， 无 论 是 哪 种 假设 在 实际 中 
都 工作 得 很 好 。 例 如 ，23" 和 10? 之 间 的 相对 差别 不 大 : (238 一 10?)/10" 7%。 类 似 ， 
(2 0 DA 


EB 练习 题 6. 2 计算 这 样 一 个 磁盘 的 容量 ， 它 有 2 个 盘 片 ，10 000 个 柱 面 ， 每 条 磁道 平 

均 有 400 个 扇 区， 而 每 个 遍 区 有 512 个 字 节 。 

3. 磁盘 操作 

磁盘 用 读 / 写 头 (read/write head) 来 读 写 存 储 在 磁性 表面 的 位 ， 而 读 写 头 连接 到 一 个 
传动 辟 (actuator arm) 一 端 ， 如 图 6-10a 所 示 。 通 过 沿 着 半径 轴 前 后 移动 这 个 传动 臂 ， 驱 动 
器 可 以 将 读 / 写 头 定位 在 盘面 上 的 任何 磁道 上 。 这 样 的 机 械 运动 称 为 寻 道 (seek)。 一 旦 读 / 
写 头 定位 到 了 期 望 的 磁道 上 ， 那 么 当 磁道 上 的 每 个 位 通过 它 的 下 面 时 ， 读 / 写 头 可 以 感知 
到 这 个 位 的 值 ( 读 该 位 )， 也 可 以 修改 这 个 位 的 值 ( 写 该 位 )。 有 多 个 盘 片 的 磁盘 针对 每 个 盘 
面 都 有 一 个 独立 的 读 / 写 头 ， 如 图 6-10b 所 示 。 读 / 写 头 垂直 排列 ， 一 致 行动 。 在 任何 时 
刻 ， 所 有 的 读 / 写 头 都 位 于 同一 个 柱 面 上 。 









读 / 写 头 连 到 传动 臂 的 末 
端 ， 在 磁盘 表面 上 一 层 
薄 薄 的 气垫 上 飞翔 


磁盘 表面 以 固定 。 
的 旋转 速率 旋转 ,/ 


:= 通过 在 半径 方向 上 
移动 ， 传 动 臂 可 以 
将 读 / 写 头 定位 在 
任何 磁道 上 





a ) 一 个 盘 片 的 视图 b ) 多 个 盘 片 的 视图 
图 6-10 磁盘 的 动态 特性 


”在 传动 臂 末 端的 读 / 写 头 在 磁盘 表面 高 度 大 约 0. 1 微米 处 的 一 层 薄 薄 的 气垫 上 飞翔 (就 是 字 
面 上 这 个 意思 )， 速 度 大 约 为 80 km/h。 这 可 以 比喻 成 将 一 座 摩天 大 楼 (442 米 高 ) 放 倒 ， 然 后 让 
它 在 距离 地 面 2. 5 cm(1 英寸 ) 的 高 度 上 环绕 地 球 飞 行 ， 绕 地 球 一 天 只 需要 8 秒 钟 ! 在 这 样 小 的 
间 队 里， 盘面 上 一 粒 微小 的 灰尘 都 像 一 块 巨 石 。 如 果 读 / 写 头 碰 到 了 这 样 的 一 块 巨 石 ， 读 / 写 头 
会 停 下 来 ， 撞 到 盘面 一 一 所 谓 的 读 / 写 头 冲 撞 (head crash)。 为 此 ， 磁盘 总 是 密封 包装 的 。 

磁盘 以 扇 区 大 小 的 块 来 读 写 数据 。 对 扇 区 的 访问 时 间 (access time) 有 三 个 主要 的 部 
分 寻 道 时 间 (seek time)、 旋 转 时 间 (rotational latency) 和 传送 时 间 (transfer time); 
e 寻 道 时 间 : 为 了 读 取 某 个 目标 扇 区 的 内 容 ， 传 动 臂 首 先 将 读 / 写 头 定位 到 包含 目标 
扇 区 的 磁道 上 。 移 动 传动 臂 所 需 的 时 间 称 为 寻 道 时 间 。 寻 道 时 间 Ta 依赖 于 读 / 写 
头 以 前 的 位 置 和 传动 臂 在 盘面 上 移动 的 速度 。 现 代 驱 动 器 中 平均 寻 道 时 间 Ts so 是 
通过 对 几 千 次 对 随机 扇 区 的 寻 道 求 平 均值 来 测量 的 ， 通 常 为 3 一 9ms。 一 次 寻 道 的 
最 大 时 间 Ts 可 以 高 达 20ms。 





e 旋转 时 间 : 一 旦 读 / 写 头 定 位 到 了 期 望 的 磁道 ， 驱 动 器 等 待 目 标 扇 区 的 第 一 个 位 旋 
转 到 读 / 写 头 下 。 这 个 步骤 的 性 能 依赖 于 当 读 / 写 头 到 达 目 标 扇 区 时 盘面 的 位 置 以 及 
磁盘 的 旋转 速度 。 在 最 坏 的 情况 下 ， 读 / 写 头 刚刚 错过 了 目标 扇 区 ， 必 须 等 待 磁盘 
转 一 整 圈 。 因 此 ， 最 大 旋转 延迟 (以 秒 为 单位 ) 是 

了 
RPM ”1min 

平均 旋转 时 间 Tse wowiion 是 Tmox vowtion 的 一 半 。 

e 传送 时 间 : 当 目 标 扇 区 的 第 一 个 位 位 于 读 / 写 头 下 时 ， 驱 动 器 就 可 以 开始 读 或 者 写 
该 扇 区 的 内 容 了 。 一 个 扇 区 的 传送 时 间 依 赖 于 旋转 速度 和 每 条 磁道 的 扇 区 数目 。 因 
此 ， 我 们 可 以 粗略 地 估计 一 个 扇 区 以 秒 为 单位 的 平均 传送 时 间 如 下 

下 je = L 义 a Se 
证 RPM ” (平均 遍 区 数 / 磁道 )” lmin 

我 们 可 以 估计 访问 一 个 磁盘 扇 区 内 容 的 平均 时 间 为 平均 寻 道 时 间 、 平 均 旋 转 延 迟 和 平均 伟 

送 时 间 之 和 。 例 如 ， 考 虑 一 个 有 如 下 参数 的 磁盘 : 

参数 


dys rotation 


























7200RPM 
9ms 
400 





了 
每 条 磁道 的 平均 遍 区 数 
对 于 这 个 磁盘 ， 平均 旋 转 延迟 (以 ms 为 单位 ) 是 
Tyg sotation 一 1/2 X Tinax oation = 1/2 X (60s/7200 RPM) X 1000 ms/s 4 ms 
平均 传送 时 间 是 
Tvg transter 一 60/7200 RPM X 1/400 遍 区 /磁道 X 1000 ms/s 守 0.02 ms 

总 之 ， 整 个 估计 的 访问 时 间 是 
Ta 十 .02 mms 二 1302 ms 

这 个 例子 说 明了 一 些 很 重要 的 问题 : 

e 访问 一 个 磁盘 扇 区 中 512 个 字 节 的 时 间 主 要 是 寻 道 时 间 和 旋转 延迟 。 访 问 扇 区 中 的 
第 一 个 字 节 用 了 很 长 时 间 ， 但 是 访问 剩 下 的 字 节 几乎 不 用 时 间 。 

e@ 因为 寻 道 时 间 和 旋转 延迟 大 致 相等 ， 所 以 将 寻 道 时 间 乘 2 是 估计 磁盘 访问 时 间 的 简 
单 而 合理 的 方法 。 

e 对 存储 在 SRAM 中 的 一 个 64 位 字 的 访问 时 间 大 约 是 4ns， 对 DRAM 的 访问 时 间 是 
60ns。 因 此 ， 从 内 存 中 读 一 个 512 个 字 节 扇 区 大 小 的 块 的 时 间 对 SRAM 来 说 大 约 是 
256ns， 对 DRAM 来 说 大 约 是 4000ns。 磁 盘 访 问 时 间 ， 大 约 10ms， 是 SRAM 的 大 
约 40 000 倍 ， 是 DRAM 的 大 约 2500 倍 。 

ES 练习 题 6.3 估计 访问 下 面 这 个 磁盘 上 一 个 扁 区 的 访问 时 间 ( 以 ms 为 单位 ) : 
| 值 | 


15 O000RPM 
二 8ms 


每 条 磁道 的 平均 扇 区 数 500 

















4. 逻辑 磁盘 块 
正如 我 们 看 到 的 那样 ， 现 代 磁 盘 构 造 复 杂 ， 有 多 个 盘面 ， 这 些 盘 面 上 有 不 同 的 记录 
区 。 为 了 对 操作 系统 隐藏 这 样 的 复杂 性 ， 现 代 磁 盘 将 它们 的 构造 呈现 为 一 个 简单 的 视图 ， 
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No a aah 编号 为 0，1，…，B 一 1。 磁 盘 封 装 中 有 一 个 小 的 硬 
件 /固件 设备 ， 称 为 磁盘 控制 器 ， 维 护 着 逻辑 块 号 和 实际 (物理 ) 磁 盘 扇 区 之 间 的 映射 关系 。 
当 操 作 系 统 想 要 执行 一 个 1/O 操 作 时 ， 例如 读 一 个 磁盘 扇 区 的 数据 到 主 存 ， 操 作 系统 会 发 
送 一 个 命令 到 磁盘 控制 器 ， 让 它 读 某 个 逻辑 块 号 。 控 制 器 上 的 固件 执行 一 个 快速 表 查 找 ， 将 一 
个 逻辑 块 号 翻译 成 一 个 (盘面 ， 磁 道 ， 扇 区 ) 的 三 元 组 ， 这 个 三 元 组 唯一 地 标识 了 对 应 的 物理 记 
区 。 控 制 器 上 的 硬件 会 解释 这 个 三 元 组 ， 将 读 / 写 头 移动 到 适当 的 柱 面 ， 等 待 扇 区 移动 到 读 / 写 
头 下 ， 将 读 / 写 头 感知 到 的 位 放 到 控制 器 上 的 一 个 小 缓冲 区 中 ， 然 后 将 它们 复制 到 主 存 中 。 


旁 注 | 格式 化 的 磁盘 容量 

磁盘 控制 器 必须 对 磁盘 进行 格式 化 ， 然 后 才能 在 该 磁盘 上 存储 数据 。 格 式 化 包括 用 
标识 扇 区 的 信息 填写 扇 区 之 间 的 间隙 ， 标 识 出 表面 有 故障 的 柱 面 并 且 不 使 用 它们 ， 以 及 
在 每 个 区 中 预 留 出 一 组 柱 面 作为 备用 ， 如 果 区 中 一 个 或 多 个 柱 面 在 磁盘 使 用 过 程 中 坏 掉 
了 ， 就 可 以 使 用 这 些 备用 的 柱 面 。 因 为 存在 着 这 些 备用 的 柱 面 ， 所 以 磁盘 制造 商 所 说 的 
格式 化 容量 比 最 大 容量 要 小 。 


ES 练习 题 6.4 假设 1MB 的 文件 由 512 个 字 节 的 逻辑 块 组 成 ， 存 储 在 具有 如 下 特性 的 磁 
盘 驱 动 器 上 ， 


SEE 
5 
对 于 下 面 的 情况 ， 假 设 程序 顺序 地 读 文件 的 逻辑 块 ， 一 个 接 一 个 ， 将 读 / 写 头 定 

位 到 第 一 块 上 的 时 间 是 和 ,vs seex 十 本 vg wowation 。 

“A. 最 好 的 情况 : 给 定 逻 辑 块 到 磁盘 扁 区 的 最 好 的 可 能 的 映射 ( 即 顺 序 的 )， 估 计 读 这 
个 文件 需要 的 最 优 时 间 ( 以 ms 为 单位 )。 

B. 随机 的 情况 : 如 果 块 是 随机 地 映射 到 磁盘 遍 区 的 ， 估 计 读 这 个 文件 需要 的 时 间 ( 以 
ms 为 单位 ) 。 

5. 连接 MO 设备 

例如 图 形 卡 、 监 视 器 、 鼠 标 、 键 盘 和 磁盘 这 样 的 输入 /输出 (IO) 设 备 ， 都 是 通过 I/O 

总 线 ， 例 如 Intel 的 外 围 设备 互 连 (Peripheral Component Interconnect，PCI) 总 线 连 接 到 

CPU 和 主 存 的 。 系 统 总 线 和 内 存 总 线 是 与 CPU 相关 的 ， 与 它们 不 同 ， 诸 如 PCI 这 样 的 I/ 

”0 总 线 设计 成 与 底层 CPU 无 关 。 例 如 ，PC 和 Mac 都 可 以 使 用 PCI 总 线 。 图 6-11 展示 了 
一 个 典型 的 I/O 总 线 结构 ， 它 连接 了 CPU、 主 存 和 I/O 设备 。 | 

虽然 IO 总 线 比 系统 总 线 和 内 存 总 线 慢 ， 但 是 它 可 以 容纳 种 类 繁多 的 第 三 方 IO 设 

备 。 例 如 ， 在 图 6-11 中 ， 有 三 种 不 同类 型 的 设备 连接 到 总 线 。 

@ 通用 串 行 总 线 (Universal Serial Bus，USB) 控 制 器 是 一 个 连接 到 USB 总 线 的 设备 的 中 
转机 构 ，USB 总 线 是 一 个 广泛 使 用 的 标准 ， 连 接 各 种 外 围 /O 设备 ， 包 括 键盘 、 鼠 
标 、 调 制 解 调 器 、 数 码 相机 、 游 戏 操 纵 杆 、 打 印 机 、 外 部 磁盘 驱动 器 和 固态 硬盘 。 
USB 3. 0 总 线 的 最 大 带宽 为 625MB/s。USB 3. 1 总 线 的 最 大 带宽 为 1250MB/s。 

e 图 形 卡 (或 适配器 ) 包 含 硬件 和 软件 逻辑 ， 它 们 负责 代表 CPU 在 显示 器 上 画像 素 。 
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@ 主机 总 线 适 配器 将 一 个 或 多 个 磁盘 连接 到 1/O 总 线 ， 使 用 的 是 一 个 特别 的 主机 总 线 
接口 定义 的 通信 协议 。 两 个 最 常用 的 这 样 的 磁盘 接口 是 SCSI( 读 作 “scuzzy”) 和 
SATA( 读 作 “sat-uh”。SCSI 磁盘 通常 比 SATA 驱动 器 更 快 但 是 也 更 贵 。SCSI 主 
机 总 线 适 配器 (通常 称 为 SCSI 控制 器 ) 可 以 支持 多 个 磁盘 驱动 器 ， 与 SATA 适配器 
不 同 ， 它 只 能 支持 一 个 驱动 器 。 

CPU 


寄存 器 文件 


= 





| 


jg 
标 


针对 诸如 网 络 适 
器 | 设备 的 扩展 插 模 
鼠 固态 ”键盘 ”监视 器 
盘 


配器 这 样 的 其 他 
制 
硬 





图 6-11 总 线 结构 示例 ， 它 连接 CPU、 主 存 和 IO 设备 


其 他 的 设备 ， 例 如 网 络 适 配器 ， 可 以 通过 将 适配器 插 人 到 主板 上 空 的 扩展 构 中 ， 从 而 
连接 到 1/O 总 线 ， 这 些 插 槽 提供 了 到 总 线 的 直接 电路 连接 。 

6. 访问 磁盘 

虽然 详细 描述 I/O 设备 是 如 何 工 作 的 以 及 如 何 对 它们 进行 编程 超出 了 我 们 讨论 的 范 
围 ， 但 是 我 们 可 以 给 你 一 个 概要 的 描述 。 例 如 ， 图 6-12 总 结 了 当 CPU 从 磁盘 读数 据 时 发 
生 的 步骤 。 


图 6-11 中 的 I/O 总 线 是 一 个 简单 的 抽象 ， 使 得 我 们 可 以 具体 描述 但 又 不 必 和 某 个 系 
统 的 细节 联系 过 于 紧密 。 它 是 基于 外 围 设 备 互联 (Peripheral Component Interconnect， 了 PCI) 
总 线 的 ， 在 2010 年 前 使 用 非常 广泛 。PCI 模型 中 ， 系 统 中 所 有 的 设备 共享 总 线 ， 一 个 时 刻 ， 
只 能 有 一 台 设 备 访 问 这 些 线路 。 在 现代 系统 中 ， 共 享 的 PCI 总 线 已 经 被 PCEe(PCI express) 
总 线 取 代 ，PCIe 是 一 组 高 速 串 行 、 通 过 开关 连接 的 点 到 点 链 路 ， 类 似 于 你 将 在 第 11 章 中 
学 习 到 的 开关 以 太 网 。PCIe 总 线 ， 最 大 吞吐 率 为 16GB/s， 比 PCI 总 线 快 一 个 数量 级 ，PCI 
总 线 的 最 大 吞吐 率 为 533MB/s。 除 了 测量 出 的 1/O 性 能 ,不同 总 线 设 计 之 间 的 区 别 对 应 用 
程序 来 说 是 不 可 见 的 ， 所 以 在 本 书 中 ， 我们 只 使 用 简单 的 共享 总 线 抽象 。 
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CPU 使 用 一 种 称 为 内 存 映射 IOCmemory-mapped I/O) 的 技术 来 向 I/O 设备 发 射 命令 
(图 6-12a) 。 在 使 用 内 存 映 射 I/O 的 系统 中 ， 地 址 空间 中 有 一 块 地 址 是 为 与 1/O 设备 通信 
保留 的 。 每 个 这 样 的 地 址 称 为 一 个 I/O 端口 (1/O port) 。 当 一 个 设备 连接 到 总 线 时 ， 它 与 
一 个 或 多 个 端口 相关 联 (或 它 被 映射 到 一 个 或 多 个 端口 )。 
CPU 芯片 
寄存 器 文件 






鼠标 ”键盘 ”监视 器 







a ) CPU 通过 将 命令 、 逻 辑 块 号 和 目的 内 存 地 址 写 到 与 磁盘 相关 联 的 内 存 映 射 地 址 ， 发 起 一 个 磁盘 读 


CPU 芯片 





IO 总 线 








鼠标 ”键盘 ”监视 器 鼠标 ”键盘 监视 器 


USB 图 形 磁盘 USB 图 形 
wat | | | 控制 器 Li | 


b ) 磁盘 控制 器 读 扇 区 ， 并 执行 到 主 存 的 DMA 传 送 c ) 当 DMA 传 送 完成 时 ， 磁 盘 控 制 器 用 中 断 的 方式 通知 CPU 
图 6-12 读 一 个 磁盘 扇 区 


来 看 一 个 简单 的 例子 ， 假 设 磁 盘 控 制 器 映射 到 端口 0xa0。 随 后 ，CPU 可 能 通过 执行 三 
个 对 地 址 0xa0 的 存储 指令 ， 发 起 磁盘 读 : 第 一 条 指令 是 发 送 一 个 命令 字 ， 告 诉 磁盘 发 起 一 
个 读 ， 同 时 还 发 送 了 其 他 的 参数 ， 例 如 当 读 完成 时 ， 是 否 中 断 CPU( 我 们 会 在 8. 1 节 中 讨论 中 
断 )。 第 二 条 指令 指明 应 该 读 的 逻辑 块 号 。 第 三 条 指令 指明 应 该 存储 磁盘 扇 区 内 容 的 主 存 地 址 。 

当 CPU 发 出 了 请 求 之 后 ， 在 磁盘 执行 读 的 时 候 ， 它 通常 会 做 些 其 他 的 工作 。 回 想 一 
下 , 一 个 1GHz 的 处 理 器 时 钟 周 期 为 lns， 在 用 来 读 磁 盘 的 16ms 时 间 里 ， 它 潜在 地 可 能 
执行 1600 万 条 指令 。 在 传输 进行 时 ， 只 是 简单 地 等 待 ， 什 么 都 不 做 ， 是 一 种 极 大 的 浪费 。 

在 磁盘 控制 器 收 到 来 自 CPU 的 读 命令 之 后 ， 它 将 逻辑 块 号 翻译 成 一 个 扇 区 地 址 ， 读 
该 户 区 的 内 容 ， 然 后 将 这 些 内容 直 接 传送 到 主 存 ， 不 需要 CPU 的 干涉 (图 6-12b) 。 设 备 可 
以 自己 执行 读 或 者 写 总 线 事务 而 不 需要 CPU 干涉 的 过 程 ， 称 为 直接 内 存 访问 (Direct 





Memory Access，DMA) 。 这 种 数据 传送 称 为 DMA 传送 (DMA transfer) 。 

在 DMA 传送 完成 ， 磁 盘 扇 区 的 内 容 被 安全 地 存储 在 主 存 中 以 后 ， 磁 盘 控制 器 通过 给 
CPU 发 送 一 个 中 断 信 号 来 通知 CPU( 图 6-12c) 。 基 本 思想 是 中 断 会 发 信号 到 CPU 芯片 的 
一 个 外 部 引 脚 上 。 这 会 导致 CPU 暂停 它 当 前 正在 做 的 工作 ， 跳 转 到 一 个 操作 系统 例 程 。 
这 个 程序 会 记录 下 IO 已 经 完成 ， 然 后 将 控制 返回 到 CPU 被 中 断 的 地 方 。 


加 商用 磁盘 的 特性 


磁盘 制造 商 在 他 们 的 网 页 上 公布 了 许多 高 级 技术 信息 。 例 如 ， 项 捷 (Seagate) 公 司 
的 网 站 包含 关于 他 们 最 受 欢 迎 的 驱动 器 之 一 Barracuda 7400 的 如 下 信息 。( 远 不 止 如 ， 
此 1)(Seagate. com) 





























构造 特性 构造 特性 值 
表面 直径 旋转 速率 7200 RPM 
格式 化 的 容量 平均 旋转 时 间 4. 16ms 
盘 片 数 平均 寻 道 时 间 8. 5ms 
表面 数 道 间 寻 道 时 间 1. 0ms 
人 逻辑 块 5 860 533 168 平均 传输 时 间 156MB/s 
逻辑 块 大 小 512 字 节 最 大 持续 传输 速率 210MB/s 








6. 1.3 固态 硬盘 
固态 硬盘 (Solid State Disk，SSD) 是 一 种 基于 闪存 的 存储 技术 (参见 6. 1. 1 节 )， 在 某 
些 情况 下 是 传统 旋转 磁盘 的 极 有 吸引 力 的 替代 产品 。 图 6-13 展示 了 它 的 基本 思想 。SSD 


封装 插 到 I/O 总 线 上 标准 硬盘 插 槽 (通常 是 USB 或 SATA) 中 ， 行 为 就 和 其 他 硬盘 一 样 ， 
处 理 来 自 CPU 的 读 写 逻辑 磁盘 块 的 请 求 。 一 个 SSD 封装 由 一 个 或 多 个 闪存 芯片 和 闪存 翻 
译 层 (flash translation layer) 组 成 ， 闪 存 芯 片 替 代 传 统 旋转 磁盘 中 的 机 械 驱 动 器 ， 而 闪存 
翻译 层 是 一 个 硬件 /固件 设备 ， 扮 演 与 磁盘 控制 器 相同 的 角色 ， 将 对 逻辑 块 的 请 求 翻译 成 
对 底层 物理 设备 的 访问 。 


固态 硬盘 ( SSD ) 











“| 








图 6-13 固态 硬盘 (SSD) 


图 6-14 展示 了 典型 SSD 的 性 能 特性 。 注 意 ， 读 SSD 比 写 要 快 。 随 机 读 和 写 的 性 能 
别 是 由 底层 闪存 基本 属性 决定 的 。 如 图 6-13 所 示 ， 一 个 办 存 由 B 个 块 的 序列 组 成 ， 每 个 
块 由 了 页 组 成 。 通 常 ,， 页 的 大 小 是 512 字 节 一 4KB， 块 是 由 32 一 128 页 组 成 的 ， 块 的 大 小 
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为 16KB 一 512KB。 数 据 是 以 页 为 单位 读 写 的 。 只 有 在 一 页 所 属 的 块 整个 被 擦 除 之 后 ， 才 
能 写 这 一 页 (通常 是 指 该 块 中 的 所 有 位 都 被 设置 为 1)。 不 过 ,一 旦 一 个 块 被 擦 除了 ， 块 中 
每 一 个 页 都 可 以 不 需要 再 进行 擦 除 就 写 一 次 。 在 大 约 进行 100 000 次 重复 写 之 后 ， 块 就 会 
磨损 坏 。 一 旦 一 个 块 磨损 坏 之 后 ， 就 不 能 再 使 用 了 。 


























] 
顺序 读 吞吐 量 550MBAs 顺序 写 吞 叶 量 | 470MBA 
随机 读 吞吐 量 (IOPS) 89 000 IOPS 随机 写 春 吐 量 (IOPS) “| ”74 000 IOPS 
随机 读 吞 吐 量 (MB/s) -人 随机 写 吞 吐 量 (MB/s) 303MB/s 
平均 顺序 读 访 问 时 间 SOs 平均 随机 写 访问 时 间 re 

图 6-14 一 个 商业 固态 硬盘 的 性 能 特性 





资料 来 源 : Intel SSD 730 产品 规格 书 [53]。IOPS 是 每 秒 I/O 操作 数 。 知 吐 量 数量 基于 4KB 块 的 读 写 


随机 写 很 慢 ， 有 两 个 原因 。 首 先 ， 擦 除 块 需要 相对 较 长 的 时 间 ，1lms 级 的 ， 比 访问 页 
所 需 时 间 要 高 一 个 数量 级 。 其 次 ， 如 果 写 操作 试图 修改 一 个 包含 已 经 有 数据 (也 就 是 不 是 
全 为 1) 的 页 p， 那 么 这 个 块 中 所 有 带 有 用 数据 的 页 都 必须 被 复制 到 一 个 新 ( 擦 除 过 的 ) 块 ， 
然后 才能 进行 对 页 p 的 写 。 制 造 商 已 经 在 闪存 翻译 层 中 实现 了 复杂 的 逻辑 ， 试 图 抵消 擦 写 
块 的 高 昂 代 价 ， 最 小 化 内 部 写 的 次 数 ， 但 是 随机 写 的 性 能 不 太 可 能 和 读 一 样 好 。 

比 起 旋转 磁盘 ，SSD 有 很 多 优点 。 它 们 由 半导体 存储 器 构成 ， 没 有 移动 的 部 件 ， 因 而 
随机 访问 时 间 比 旋转 磁盘 要 快 ， 能 耗 更 低 ， 同 时 也 更 结实 。 不 过 ， 也 有 一 些 缺 点 。 首 先 ， 
因为 反复 写 之 后 ， 闪 存 块 会 磨损 ， 所 以 SSD 也 容易 磨损 。 闪 存 翻译 层 中 的 平均 磨损 (wear 
leveling) 逻 辑 试图 通过 将 擦 除 平均 分 布 在 所 有 的 块 上 来 最 大 化 每 个 块 的 寿命 。 实 际 上 , 平 
均 磨 损 逻 辑 处 理 得 非常 好 ， 要 很 多 年 SSD 才 会 磨损 坏 ( 参 考 练习 题 6. 5) 。 其 次 ，SSD 每 字 
节 比 旋转 磁盘 贵 大 约 30 倍 ， 因 此 常用 的 存储 容量 比 旋转 磁盘 小 100 倍 。 不 过 ， 随 着 SSD 
变 得 越 来 越 受 欢迎 ， 它 的 价格 下 降 得 非常 快 ， 而 两 者 的 价格 差 也 在 减少 。 

在 便携 音乐 设备 中 ，SSD 已 经 完全 的 取代 了 旋转 磁盘 ， 在 笔记 本 电脑 中 也 越 来 越 多 地 
作为 硬盘 的 替代 品 ， 甚 至 在 台式 机 和 服务 器 中 也 开始 出 现 了 。 虽 然 旋 转 磁 盘 还 会 继续 存 
在 ， 但 是 显然 ，SSD 是 一 项 重要 的 替代 选择 。 

SN 练习 题 6.5 正如 我 们 已 经 看 到 的 ，SSD 的 一 个 潜在 的 缺陷 是 底层 闪存 会 磨损 。 例 
如 ， 图 6-14 所 示 的 SSD，Intel 保证 能 够 经 得 起 128PB(128X10” 字 节 ) 的 写 。 给 定 这 
样 的 假设 ,根据 下 面 的 工作 负载 ， 估 计 这 款 SSD 的 寿命 (以 年 为 单位 ): 

A. 顺序 写 的 最 糟 情况 :以 470MB/s( 该 设备 的 平均 顺序 写 知 吐 量 ) 的 速度 持续 地 写 SSD。 
B. 随机 写 的 最 糟 情况 ; 以 303MB/s( 该 设备 的 平均 随机 写 知 吐 量 ) 的 速度 持续 地 写 SSD。 

C. 平均 情况 : 以 20GB/ 天 ( 某 些 计算 机 制造 商 在 他 们 的 移动 计算 机 工作 负载 模拟 测试 

中 假设 的 平均 每 天 写 速 率 ) 的 速度 写 SSD。 


， 6.1.4 存储 技术 趋势 

从 我 们 对 存储 技术 的 讨论 中 ， 可 以 总 结 出 几 个 很 重要 的 思想 : 

不 同 的 存储 技术 有 不 同 的 价格 和 性 能 折 中 。SRAM 比 DRAM 快 一 点 ， 而 DRAM 比 
磁盘 要 快 很 多 。 另 一 方面 ， 快速 存储 总 是 比 慢 速 存储 要 贵 的 。SRAM 每 字 节 的 造价 比 
”DRAM 高 ，DRAM 的 造价 又 比 磁盘 高 得 多 。SSD 位 于 DRAM 和 旋转 磁盘 之 间 。 

不 同 存储 技术 的 价格 和 性 能 属性 以 截然 不 同 的 速率 变化 着 。 图 6-15 总 结 了 从 1985 年 
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以 来 的 存储 技术 的 价格 和 性 能 属性 ， 那 时 第 一 台 PC 刚刚 发 明 不 久 。 这 些 数 字 是 从 以 前 的 
商业 杂志 中 和 Web 上 挑选 出 来 的 。 虽 然 它 们 是 从 非 正 式 的 调查 中 得 到 的 ， 但 是 这 些 数字 
是 能 揭示 出 一 些 有 趣 的 趋势 。 

自从 1985 年 以 来 ，SRAM 技术 的 成 本 和 性 能 基本 上 是 以 相同 的 速度 改善 的 。 访 问 时 
间 和 每 兆 字 节 成 本 下 降 了 大 约 100 倍 ( 图 6-15a) 。 不 过 ，DRAM 和 磁盘 的 变化 趋势 更 大 ， 
而 且 更 不 一 致 。DRAM 每 兆 字 节 成 本 下 降 了 44 000 倍 (超过 了 四 个 数量 级 1) ， 而 DRAM 
的 访问 时 间 只 下 降 了 大 约 10 倍 (图 6-15b) 。 磁 盘 技 术 有 和 DRAM 相同 的 趋势 ， 甚 至 变化 
更 大 。 从 1985 年 以 来 ， 磁 盘存 储 的 每 兆 字 节 成 本 暴跌 了 3 000 000 倍 ( 超 过 了 六 个 数量 
级 !)， 但 是 访问 时 间 提 高 得 很 慢 ， 只 有 25 倍 左右 (图 6-15c) 。 这 些 惊人 的 长 期 趋势 突出 了 
内 存 和 磁盘 技术 的 一 个 基本 事实 : 增加 密度 (从 而 降低 成 本 ) 比 降低 访问 时 间 容 易 得 多 。 

DRAM 和 磁盘 的 性 能 滞后 于 CPU 的 性 能 。 正 如 我 们 在 图 6-15d 中 看 到 的 那样 ， 从 
1985 年 到 2010 年 ，CPU 周期 时 间 提 高 了 500 倍 。 如 果 我 们 看 有 效 周 期 时 间 (effective cy- 
cle time) 我 们 定义 为 一 个 单独 的 CPU( 处 理 器 ) 的 周期 时 间 除 以 它 的 处 理 器 核 数 一 一 屠 
么 从 1985 年 到 2010 年 的 提高 还 要 大 一 些 ， 为 2000 信 。CPU 性 能 曲线 在 2003 年 附近 的 突 
然 变 化 反映 的 是 多 核 处 理 器 的 出 现 ( 参 见 6. 2 节 的 旁 注 )， 在 这 个 分 割 点 之 后 ， 单 个 核 的 周 
期 时 间 实 际 上 增加 了 一 点 点 ， 然 后 又 开始 下 降 ， 不 过 比 以 前 的 速度 要 慢 一 些 。 
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a) SRAM 趋 势 
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b) DRAM 趋 势 
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d) CPU 趋势 


图 6-15 存储 和 处 理 器 技术 发 展 趋 势 。2010 年 的 Core i7 使 用 的 是 Nehalem 处 理 器 ， 
2015 年 的 Core 17 使 用 的 是 Haswell 核 





注意 ， 虽 然 SRAM 的 性 能 滞后 于 CPU 的 性 能 ， 但 还 是 在 保持 增长 。 不 过 ，DRAM 
和 磁盘 性 能 与 CPU 性 能 之 间 的 差距 实际 上 是 在 加 大 的 。 直 到 2003 年 左右 多 核 处 理 器 的 出 
现 ， 这 个 性 能 差距 都 是 延迟 的 函数 ，DRAM 和 磁盘 的 访问 时 间 比 单个 处 理 器 的 周期 时 间 
提高 得 更 慢 。 不 过 ， 随 着 多 核 的 出 现 ， 这 个 性 能 越 来 越 成 为 了 吞吐 量 的 函数 ， 多 个 处 理 器 

核 并 发 地 向 DRAM 和 磁盘 发 请 求 。 
图 6-16 清楚 地 表明 了 各 种 趋势 ， 以 半 对 数 为 比例 (semi-log scale) ， 画 出 了 图 6-15 中 

的 访问 时 间 和 周期 时 间 。 
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图 6-16 磁盘 、DRAM 和 CPU 速度 之 间 逐 渐 增 大 的 差距 


正如 我 们 将 在 6.4 节 中 看 到 的 那样 ， 现 代 计 算 机 频繁 地 使 用 基于 SRAM 的 高 速 缓存 ， 

试图 弥补 处 理 器 -内 存 之 间 的 差距 。 这 种 方法 行 之 有 效 是 因为 应 用 程序 的 一 个 称 为 局 部 性 

(locality) 的 基本 属性 ， 接 下 来 我 们 就 讨论 这 个 问题 。 

练习 题 6.6 使 用 图 6-15c 中 从 2005 年 到 2015 年 的 数据 ， 估 计 到 哪 一 年 你 可 以 以 $500 
的 价格 买 到 一 个 1]PB(10s 字 节 ) 的 旋转 磁盘 。 假 设 美元 价值 不 变 ( 没 有 通货 膨胀 ) 。 


| 旁 注 | 当 周 期 时 间 保 持 不 变 : 多 核 处 理 器 的 到 来 
计算 机 历史 是 由 一 些 在 工业 界 和 整个 世界 产生 深远 变化 的 单个 事件 标记 出 来 的 。 有 趣 
的 是 ， 这 些 变 化 点 趋向 于 每 十 年 发 生 一 次 ; 20 世纪 50 年代 Fortran 的 提出 ，20 世纪 60 年 
代 早 期 [BM 360 的 出 现 ，20 世纪 70 年 代 早 期 Internet 的 明光 (当时 称 为 APRANET)，20 
世纪 80 年 代 早期 IBM PC 的 出 现 ， 以 及 20 世纪 90 年 代 万 维 网 (World Wide Web) 的 出 现 。 
最 近 这 样 的 事件 出 现在 21 世纪 初 ， 当 计算 机 制造 商 迎 头 撞 上 了 所 谓 的 “能 量 墙 (power 
wall)”， 发 现 他 们 无 法 再 像 以 前 一 样 迅速 地 增加 CPU 的 时 钟 频率 了 ， 因 为 如 果 那 样 芯片 的 功 耗 
会 太 大 。 解 决 方法 是 用 多 个 小 处 理 器 核 (core) 取 代 单 个 大 处 理 器 ， 从 而 提高 性 能 ， 每 个 完整 的 处 
理 器 能 够 独立 地 、 与 其 他 核 并 行 地 执行 程序 。 这 种 多 核 (multi-core) 方 法 部 分 有 效 ， 因 为 一 个 处 
. 理 器 的 功 耗 正比 于 PP 二 fCy ， 这 里 f 是 时 钟 频率 ，C 是 电容 ， 而 Uv 是 电压 。 电 容 C 大致 上 正比 
于 面积 ， 所 以 只 要 所 有 核 的 总 面积 不 变 ， 多 核 造成 的 能 耗 就 能 保持 不 变 。 只 要 特征 尺寸 继续 按 
照 摩尔 定律 指数 性 地 下 降 ， 每 个 处 理 器 中 的 核 数 ， 以 及 每 个 处 理 器 的 有 效 性 能 ， 都 会 继续 增加 。 
从 这 个 时 间 点 以 后 ， 计 算 机 越 来 越 快 ， 不 是 因为 时 钟 频率 的 增加 ， 而 是 因为 每 个 处 理 器 
中 核 数 的 增加 ， 也 因为 体系 结构 上 的 创新 提高 了 在 这 些 核 上 运行 程序 的 效率 。 我 们 可 以 从 图 
6-16 中 很 清楚 地 看 到 这 个 趋势 。CPU 周期 时 间 在 2003 年 达到 最 低 点 ， 然 后 实际 上 是 又 开始 上 





升 的 ， 然 后 变 得 平稳 ， 之 后 又 开始 以 比 以 前 慢 一 些 的 速率 下 降 。 不 过 ， 由 于 多 核 处 理 器 的 出 
现 (2004 年 出 现 双核 ，2007 年 出 现 四 核 )， 有 效 周期 时 间 以 接近 于 以 前 的 速率 持续 下 降 。 


6.2 局 部 性 

一 个 编写 良好 的 计算 机 程序 常常 具有 良好 的 局 部 性 (locality)。 也 就 是 ， 它 们 倾向 于 引 
用 邻近 于 其 他 最 近 引 用 过 的 数据 项 的 数据 项 ,或 者 最 近 引 用 过 的 数据 项 本 身 。 这 种 倾向 
性 ， 被 称 为 局 部 性 原理 (principle of locality)， 是 一 个 持久 的 概念 ， 对 硬件 和 软件 系统 的 设 
计 和 性 能 都 有 着 极 大 的 影响 。 

局 部 性 通常 有 两 种 不 同 的 形式 时间 局 部 性 (temporal locality) 和 空间 局 部 性 (spatial 
locality)。 在 一 个 具有 良好 时 间 局 部 性 的 程序 中 ， 被 引用 过 一 次 的 内 存 位 置 很 可 能 在 不 远 
的 将 来 再 被 多 次 引用 。 在 一 个 具有 良好 空间 局 部 性 的 程序 中 ， 如 果 一 个 内 存 位 置 被 引用 了 
一 次 ， 那 么 程序 很 可 能 在 不 远 的 将 来 引用 附近 的 一 个 内 存 位 置 。 

程序 员 应 该 理解 局 部 性 原理 ， 因 为 一 般 而 言 ， 有 良好 局 部 性 的 程序 比 局 部 性 差 的 程序 
运行 得 更 快 。 现 代 计 算 机 系统 的 各 个 层次 ， 从 硬件 到 操作 系统 、 再 到 应 用 程序 ， 它 们 的 设 
计 都 利用 了 局 部 性 。 在 硬件 层 ， 局 部 性 原理 允许 计算 机 设计 者 通过 引 和 人 称 为 高 速 缓存 存储 
器 的 小 而 快速 的 存储 器 来 保存 最 近 被 引用 的 指令 和 数据 项 ， 从 而 提高 对 主 存 的 访问 速度 。 
在 操作 系统 级 ， 局 部 性 原理 允许 系统 使 用 主 存 作 为 虚拟 地 址 空间 最 近 破 引用 块 的 高 速 组 
存 。 类 似 地 ， 操 作 系 统 用 主 存 来 缓存 磁盘 文件 系统 中 最 近 被 使 用 的 磁盘 块 。 局 部 性 原理 在 
应 用 程序 的 设计 中 也 扮演 着 重要 的 角色 。 例 如 ，Web 浏览 器 将 最 近 被 引用 的 文档 放 在 本 地 
磁盘 上 ， 利 用 的 就 是 时 间 局 部 性 。 大 容量 的 Web 服务 器 将 最 近 被 请 求 的 文档 放 在 前 端 磁 
盘 高 速 缓存 中 ， 这 些 缓存 能 满足 对 这 些 文档 的 请 求 ， 而 不 需要 服务 器 的 任何 干预 。 


6. 2. 1 对 程序 数据 引用 的 局 部 性 


考虑 图 6-17a 中 的 简单 函数 ， 它 对 一 个 向 量 的 元 素 求 和 。 这 个 程序 有 和 良好 的 局 部 性 
吗 ? 要 回答 这 个 问题 ， 我 们 来 看 看 每 个 变量 的 引用 模式 。 在 这 个 例子 中 ， 变 量 sum 在 每 次 
循环 迭代 中 被 引用 一 次 ， 因 此 ， 对 于 sum 来 说 ， 有 好 的 时 间 局 部 性 。 另 一 方面 ， 因 为 sum 
是 标量 ， 对 于 sum 来 说 ， 没 有 空间 局 部 性 。 


int sumvec(int v[N]) 


int i, sum = 0; 


for (i = 0; i < N; i++) 
sum += Vv[i]; 
return sum; 





小 
a) 一 个 具有 良好 局 部 性 的 程序 b ) 向 量 v 的 引用 模式 (N=8) 
图 6-17 注意 如 何 按照 向 量 元 素 存储 在 内 存 中 的 顺序 来 访问 它们 


正如 我 们 在 图 6-17b 中 看 到 的 ， 向 量 v 的 元 素 是 被 顺序 读 取 的 ， 一 个 接 一 个 ， 按 照 它 
们 存储 在 内 存 中 的 顺序 (为 了 方便 ， 我 们 假设 数组 是 从 地 址 0 开始 的 ) 。 因 此 ， 对 于 变量 w 
函数 有 很 好 的 空间 局 部 性 ， 但 是 时 间 局 部 性 很 差 ， 因 为 每 个 向 量 元 素 只 被 访问 一 次 。 因 为 
对 于 循环 体 中 的 每 个 变量 ， 这 个 函数 要 么 有 好 的 空间 局 部 性 ， 要 么 有 好 的 时 间 局 部 性 ， 所 
以 我 们 可 以 断定 sumvec 函数 有 良好 的 局 部 性 。 
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我 们 说 像 sumvec 这 样 顺序 访问 一 个 向 量 每 个 元 素 的 函数 ， 具 有 步 长 为 工 的 引用 模式 
(stride-] reference pattern)( 相 对 于 元 素 的 大 小 )。 有 时 我 们 称 步 长 为 1 的 引用 模式 为 顺序 
引用 模式 (sequential reference pattern)。 一 个 连续 向 量 中 ， 每 隔 上 个 元 素 进行 访问 ， 就 称 
为 步 长 为 的 引用 模式 (stride-k reference pattern)。 步 长 为 1 的 引用 模式 是 程序 中 空间 局 
部 性 常见 和 重要 的 来 源 。 一 般 而 言 ， 随 着 步 长 的 增加 ， 空 间 局 部 性 下 降 。 

对 于 引用 多 维 数组 的 程序 来 说 ， 步 长 也 是 一 个 很 重要 的 问题 。 例 如 ， 考 虑 图 6-18a 中 的 
函数 sumarrayrows， 它 对 一 个 二 维 数 组 的 元 素 求 和 。 双 重 典 套 循环 按照 行 优先 顺序 (row- 
major order) 读 数组 的 元 素 。 也 就 是 ， 内 层 循 环 读 第 一 行 的 元 素 ， 然 后 读 第 二 行 ， 依 此 类 推 。 
函数 sumarrayrows 具有 和 良好 的 空间 局 部 性 ， 因 为 它 按照 数组 被 存储 的 行 优 先 顺序 来 访问 这 个 
数组 (图 6-18b) 。 其 结果 是 得 到 一 个 很 好 的 步 长 为 1 的 引用 模式 ， 具 有 良好 的 空间 局 部 性 。 



















int sumarrayrows(int a[M] [N] ) 


int i, j, sum = 0; 


for (i = 0; i < Mi i++) 
for (j= 0; Fj < WN j++) 
sum += a[i] [j]; 
return sunm; 


地 址 


内 容 
访问 顺序 





下 





a ) 号 一 个 具有 良好 局 部 性 的 程序 b ) 数组 a 的 引用 模式 (M=2, N=3) 
图 6-18 有 良好 的 空间 局 部 性 ， 是 因为 数组 是 按照 与 它 存储 在 内 存 中 一 样 的 行 优先 顺序 来 被 访问 的 


一 些 看 上 去 很 小 的 对 程序 的 改动 能 够 对 它 的 局 部 性 有 很 大 的 影响 。 例 如 ， 图 6-19a 中 
的 函数 sumarraycols 计算 的 结果 和 图 6-18a 中 函数 sumarrayrows 的 一 样 。 唯 一 的 区 别 
是 我 们 交换 了 和 7 的 循环 。 这 样 交换 循环 对 它 的 局 部 性 有 何 影响 ?函数 sumarraycols 
的 空间 局 部 性 很 差 ， 因 为 它 按照 列 顺序 来 扫描 数组 ， 而 不 是 按照 行 顺 序 。 因 为 C 数组 在 内 
存 中 是 按照 行 顺 序 来 存放 的 ， 结 果 就 得 到 步 长 为 NN 的 引用 模式 ， 如 图 6-19b 所 示 。 





int sumarraycols(int a[M] [NJ]) 








i 
Sf 
3 int i, j,; sum = 0; 
4 
5 for (j = 0; j < N; j++) 
6 for (i = 0; i < M; i++) 
7 sum += a[i] [j] po 
8 return sum; 内 容 
9 访问 顺序 
a ) 一 个 空间 局 部 性 很 差 的 程序 b ) 数组 a 的 引用 模式 (M=2, N=3) 


图 6-19 函数 的 空间 局 部 性 很 差 ， 这 是 因为 它 使 用 步 长 为 N 的 引用 模式 来 扫描 
6.2.2” 取 指令 的 局 部 性 | 
因为 程序 指令 是 存放 在 内 存 中 的 ，CPU 必须 取出 ( 读 出 ) 这 些 指令 ， 所 以 我 们 也 能 
”评价 一 个 程序 关于 取 指 令 的 局 部 性 。 例 如 ， 图 6-17 中 for 循环 体 里 的 指令 是 按照 连续 的 
， 内 存 顺序 执行 的 ， 因 此 循环 有 和 良好 的 空间 局 部 性 。 因 为 循环 体会 被 执行 多 次 ， 所 以 它 也 有 
“很 好 的 时 间 局 部 性 。 


420 第 一 部 分 程序 结 榴 和 执行 





代码 区 别 于 程序 数据 的 一 个 重要 属性 是 在 运行 时 它 是 不 能 被 修改 的 。 当 程序 正在 执行 
时 ，CPU 只 从 内 存 中 读 出 它 的 指令 。CPU 很 少 会 重 写 或 修改 这 些 指令 。 


6.2.3 局 部 性 小 结 
在 这 一 节 中 ， 我 们 介绍 了 局 部 性 的 基本 思想 ， 还 给 出 了 量化 评价 程序 中 局 部 性 的 一 些 
简单 原则 ; 
e 重复 引用 相同 变量 的 程序 有 良好 的 时 间 局 部 性 。 
e 对 于 有 具有 步 长 为 的 引用 模式 的 程序 ， 步 长 越 小 ， 空 间 局 部 性 越 好 。 具 有 步 长 为 1 
的 引用 模式 的 程序 有 很 好 的 空间 局 部 性 。 在 内 存 中 以 大 步 长 跳 来 跳 去 的 程序 空间 局 
部 性 会 很 差 。 
e 对 于 取 指 令 来 说 ,循环 有 好 的 时 间 和 空间 局 部 性 。 循 环 体 越 小 ， 循 环 迭 代 次 数 越 
多 ， 局 部 性 越 好 。 
在 本 章 后 面 ， 在 我 们 学 习 了 高 速 缓存 存储 器 以 及 它们 是 如 何 工作 的 之 后 ， 我 们 会 介绍 
如 何 用 高 速 缓存 命中 率 和 不 命中 率 来 量化 局 部 性 的 概念 。 你 还 会 弄 明白 为 什么 有 良好 局 部 
性 的 程序 通常 比 局 部 性 差 的 程序 运行 得 更 快 。 尽 管 如 此 ， 了 人 解 如 何 看 一 眼 源 代码 就 能 获得 
对 程序 中 局 部 性 的 高 层次 的 认识 ， 是 程序 员 要 掌握 的 一 项 有 用 而 且 重 要 的 技能 。 . 
练习 题 6. 7 改变 下 面 函 数 中 循环 的 顺序 ， 使 得 它 以 步 长 为 1 的 引用 模式 扫描 三 维 数组 a; 


int sumarray3d(int a[N] [N] [NJ]) 


1 
-| 

3 int i, j, k, sum = 0; 

4 

5 for (i = 0; i < N;: i++) +{ 

6 for (j= Oj <N; t+) € 

区 for (k = 0; k < N; k++) { 
8 sum += a[k] [i] [j]; 

9 } 

10 上 

区 BF 

慢 return sum; 

i } 


RS 练习 题 6.8 图 6-20 中 的 三 个 函数 ， 以 不 同 的 空间 局 部 性 程度 ， 执 行 相同 的 操作 。 请 
对 这 些 函 数 就 空间 局 部 性 进行 排序 。 解 释 你 是 如 何 得 到 排序 结果 的 。 





void cleari(point *p, int n) 
下 
inb is 3% 
#define N 1000 
for (i = 0; i < n; i++) { 


for (j = 0; j < 3; j++) 
pli] .vel[j] = 0; 

for (j = 0; j < 3; j++) 
pli] .acc[j] = 0; 


typedef struct { 
int vel[3]; 
int acc[3] ; 
} point; 
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point p[N]; 


a) structs 数 组 b)〉clearl 也 数 
图 6-20 练习 题 6. 8 的 代码 示例 
















void clear2(point *p, int n) 


T 


void clear3(point *p, int n) 
{ 


i Tn 过， 


for (i = 0 1 nr Et) for (j = 0; j < 3; j++) { 

for (i = 0; i < n; i++) 
pli] .vel[j] = 0; 

for (i = 0; i < n; i++) 
pli].acc[j] = 0; 


fer (tj 三 0% I] 所 4 
p[i] .vel[j] = 0; 
plilj.acc[j] = 0; 








c) clear2 函 数 d) clear3 函 数 


图 6-20 ( 续 ) 


6.3 存储 器 层次 结构 

6.1 节 和 6.2 节 描述 了 存储 技术 和 计算 机 软件 的 一 些 基本 的 和 持久 的 属性 : 

e 存储 技术 : 不 同 存储 技术 的 访问 时 间 差 异 很 大 。 速 度 较 快 的 技术 每 字 节 的 成 本 要 比 

速度 较 慢 的 技术 高 ， 而 且 容 量 较 小 。CPU 和 主 存 之 间 的 速度 差距 在 增 大 。 

@ 计算 机 软件 : 一 个 编写 良好 的 程序 倾向 于 展示 出 良好 的 局 部 性 。 
计算 中 一 个 喜人 的 巧合 是 ， 硬 件 和 软件 的 这 些 基本 属性 互相 补充 得 很 完美 。 它 们 这 种 相互 
补充 的 性 质 使 人 想到 一 种 组 织 存储 器 系统 的 方法 ， 称 为 存储 器 层次 结构 (memory 
hierarchy)， 所 有 的 现代 计算 机 系统 中 都 使 用 了 这 种 方法 。 图 6-21 展示 了 一 个 典型 的 存储 
器 层次 结构 。 一 般 而 言 ， 从 高 层 往 底层 走 ， 存 储 设备 变 得 更 慢 、 更 便宜 和 更 大 。 在 最 高 层 
(L0)， 是 少量 快速 的 CPU 寄存 器 ，CPU 可 以 在 一 个 时 钟 周期 内 访问 它们 。 接 下 来 是 一 个 
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图 6-21 存储 器 层次 结构 


本 地 磁盘 保存 着 从 远程 网 络 
服务 器 磁盘 上 取出 的 文件 








或 多 个 小 型 到 中 型 的 基于 SRAM 的 高 速 缓存 存储 器 ， 可 以 在 几 个 CPU 时 钟 周期 内 访问 它 
们 。 然 后 是 一 个 大 的 基于 DRAM 的 主 存 ， 可 以 在 几 十 到 几 百 个 时 钟 周 期 内 访问 它们 。 接 
下 来 是 慢 速 但 是 容量 很 大 的 本 地 磁盘 。 最 后 ， 有 些 系统 甚至 包括 了 一 层 附 加 的 远程 服务 器 
上 的 磁盘 ， 要 通过 网 络 来 访问 它们 。 例 如 ， 像 安德鲁 文件 系统 (Andrew File System， 
AFS) 或 者 网 络 文件 系统 (Network File System，NFS) 这 样 的 分 布 式 文件 系统 ， 人 允许 程序 
访问 存储 在 远程 的 网 络 服务 器 上 的 文件 。 类 似 地 ， 万 维 网 允许 程序 访问 存储 在 世界 上 任何 
地 方 的 Web 服务 器 上 的 远程 文件 。 


区 要 其 他 的 存储 器 层次 结构 1 

我 们 向 你 展示 了 一 个 存储 器 层次 结构 的 示例 ， 但 是 其 他 的 组 合 也 是 可 能 的 ， 而 且 确 . 
实 也 很 常见 。 例 如 ， 许 多 站 点 (包括 谷歌 的 数据 中 心 ) 将 本 地 磁盘 备份 到 存档 的 磁带 上 。 
其 中 有 些 站 点 ， 在 需要 时 由 人 工装 好 磁带 。 而 其 他 站 点 则 是 由 磁带 机 器 人 自动 地 完成 这 
项 任务 。 无 论 在 哪 种 情况 中 ， 磁 带 都 是 存储 器 层次 结构 中 的 一 层 ， 在 本 地 磁盘 层 下 面 ， 
本 书 中 提 到 的 通用 原则 也 同样 适用 于 它 。 磁 带 每 字 节 比 磁盘 更 便宜 ， 它 允许 站 点 将 本 地 磁 ; 
盘 的 多 个 快照 存档 。 代 价 是 磁带 的 访问 时 间 要 比 磁盘 的 更 长 。 来 看 另 一 个 例子 ， 固 态 硬盘 
在 存储 器 层次 结构 中 扮演 着 越 来 越 重要 的 角色 ， 连 接 起 DRAM 和 旋转 磁盘 之 间 的 鸿沟 。 


6.3.1 存储 器 层次 结构 中 的 缓存 

一 般 而 言 ， 高 速 缓存 (cache， 读 作 “cash”) 是 一 个 小 而 快速 的 存储 设备 ， 它 作为 存储 
在 更 大 、 也 更 慢 的 设备 中 的 数据 对 象 的 缓冲 区 域 。 使 用 高 速 缓存 的 过 程 称 为 缓存 (caching， 
读 作 “cashing”) 。 

存储 器 层次 结构 的 中 心思 想 是 ， 对 于 每 个 &， 位 于 & 层 的 更 快 更 小 的 存储 设备 作为 位 于 
& 十 1 层 的 更 大 更 慢 的 存储 设备 的 缓存 。 换 句 话 说 ， 层 次 结构 中 的 每 一 层 都 缓存 来 自 较 低 一 层 
的 数据 对 象 。 例 如 ， 本 地 磁盘 作为 通过 网 络 从 远程 磁盘 取出 的 文件 (例如 Web 页 面 ) 的 缓存 ， 
主 存 作为 本 地 磁盘 上 数据 的 缓存 ， 依 此 类 推 ， 直 到 最 小 的 缓存 一 一 CPU 寄存 器 组 。 

图 6-22 展示 了 存储 器 层次 结构 中 缓存 的 一 般 性 概念 。 第 & 十 1 层 的 存储 器 被 划分 成 连 
续 的 数据 对 象 组 块 (chunk) ， 称 为 块 (block)。 每 个 块 都 有 一 个 唯一 的 地 址 或 名 字 ， 使 之 区 
别 于 其 他 的 块 。 块 可 以 是 固定 大 小 的 (通常 是 这 样 的 )， 也 可 以 是 可 变 大 小 的 (例如 存储 在 
Web 服务 器 上 的 远程 HTML 文件 )。 例 如 ， 图 6-22 中 第 & 十 1 层 存储 器 被 划分 成 16 个 大 
小 固定 的 块 ， 编 号 为 0 一 15。 

第 # 层 更 小 、 更 快 、 更 昂贵 的 设备 
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图 6-22 存储 器 层次 结构 中 基本 的 缓存 原理 
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类 似 地 ， 第 站 层 的 存储 器 被 划分 成 较 少 的 块 的 集合 ， 每 个 块 的 大 小 与 & 十 1 层 的 块 的 大 
小 一 样 。 在 任何 时 刻 ， 第 & 层 的 缓存 包含 第 & 十 1 层 块 的 一 个 子 集 的 副本 。 例 如 ， 在 图 6-22 
中 ， 第 不 层 的 缓存 有 4 个 块 的 空间 ， 当 前 包含 块 4、9、14 和 3 的 副本 。 

数据 总 是 以 块 大 小 为 传送 单元 (transfer unit) 在 第 & 层 和 第 & 十 1 层 之 间 来 回复 制 的 。 
虽然 在 层次 结构 中 任何 一 对 相 邻 的 层次 之 间 块 大 小 是 固定 的 ， 但 是 其 他 的 层次 对 之 间 可 以 
有 不 同 的 块 大 小 。 例 如 ， 在 图 6-21 中 ，L1 和 L0 之 间 的 传送 通常 使 用 的 是 1 个 字 大 小 的 
块 。L2 和 1L1 之 间 ( 以 及 L3 和 1L2 之 间 、L4 和 1L3 之 间 ) 的 传送 通常 使 用 的 是 几 十 个 字 节 的 
块 。 而 L5 和 L4 之 间 的 传送 用 的 是 大 小 为 几 百 或 几 千 字 节 的 块 。 一 般 而 言 ， 层 次 结构 中 较 
低层 ( 离 CPU 较 远 ) 的 设备 的 访问 时 间 较 长 ， 因 此 为 了 补偿 这 些 较 长 的 访问 时 间 ， 倾 向 于 
使 用 较 大 的 块 。 

1. 缓存 命中 

当 程序 需要 第 & 十 1 层 的 某 个 数据 对 象 4 时 ， 它 首先 在 当前 存储 在 第 & 层 的 一 个 块 中 
查找 &。 如 果 以 刚好 缓存 在 第 & 层 中 ， 那 么 就 是 我 们 所 说 的 缓存 命中 (cache hit) 。 该 程序 
直接 从 第 上 层 读 取 4d， 根据 存储 器 层次 结构 的 性 质 ， 这 要 比 从 第 十 1 层 读 取 4 更 快 。 例 
如 ， 一 个 有 良好 时 间 局 部 性 的 程序 可 以 从 块 14 中 读 出 一 个 数据 对 象 ， 得 到 一 个 对 第 层 
的 缓存 命中 。 

2. 缓存 不 命中 

另 一 方面 ， 如 果 第 & 层 中 没有 缓存 数据 对 象 &， 那 么 就 是 我 们 所 说 的 缓存 不 命中 
(cache miss) 。 当 发 生 缓存 不 命中 时 ， 第 & 层 的 缓存 从 第 & 十 1 层 缓存 中 取出 包含 4 的 那个 
块 ， 如 果 第 & 层 的 缓存 已 经 满 了 ， 可 能 就 会 覆盖 现存 的 一 个 块 。 

覆盖 一 个 现存 的 块 的 过 程 称 为 替换 (replacing) 或 驱逐 (evicting) 这 个 块 。 被 驱逐 的 这 
个 块 有 时 也 称 为 牺牲 块 (victim block) 。 决 定 该 替换 哪个 块 是 由 缓存 的 替换 策略 (replace- 
ment policy) 来 控制 的 。 例 如 ， 一 个 具有 随机 替换 策略 的 缓存 会 随机 选择 一 个 牺牲 块 。 一 
个 具有 最 近 最 少 被 使 用 (LRU) 蔡 换 策 略 的 缓存 会 选择 那个 最 后 被 访问 的 时 间距 现在 最 远 
的 块 。 

在 第 & 层 缓存 从 第 & 十 1 层 取出 那个 块 之 后 ， 程 序 就 能 像 前 面 一 样 从 第 有 层 读 出 d 了 。 
例如 ， 在 图 6-22 中 ,在 第 & 层 中 读 块 12 中 的 一 个 数据 对 象 ， 会 导致 一 个 缓存 不 命中 ， 因 
为 块 12 当前 不 在 第 & 层 缓存 中 。 一 旦 把 块 12 从 第 & 十 1 层 复 制 到 第 & 层 之 后 ， 它 就 会 保 
持 在 那里 ， 等 待 稍 后 的 访问 。 

3. 缓存 不 命中 的 种 类 

区 分 不 同 种 类 的 缓存 不 命中 有 时 候 是 很 有 帮助 的 。 如 果 第 & 层 的 缓存 是 空 的 ， 那 么 对 
任何 数据 对 象 的 访问 都 会 不 命中 。 一 个 空 的 缓存 有 时 被 称 为 冷 缓 存 (cold cache)， 此 类 不 
命中 称 为 强制 性 不 命中 (compulsory miss) 或 冷 不 命中 (cold miss)。 冷 不 命中 很 重要 ， 因 为 
它们 通常 是 短暂 的 事件 ， 不 会 在 反复 访问 存储 器 使 得 缓存 暖 身 (warmed up) 之 后 的 稳定 状 
态 中 出 现 。 

只 要 发 生 了 不 命中 ， 第 & 层 的 缓存 就 必须 执行 某 个 放置 策略 (placement policy)， 确 定 
。 把 它 从 第 & 十 1 层 中 取出 的 块 放 在 哪里 。 最 灵活 的 替换 策略 是 允许 来 自 第 & 十 1 层 的 任何 块 
放 在 第 & 层 的 任何 块 中 。 对 于 存储 器 层次 结构 中 高 层 的 缓存 (靠近 CPU) ， 它 们 是 用 硬件 来 . 
实现 的 ， 而 且 速 度 是 最 优 的 ， 这 个 策略 实现 起 来 通常 很 昂贵 ， 因 为 随机 地 放置 块 ， 定 位 起 
来 代价 很 高 。 








因此 ， 硬 件 缓存 通常 使 用 的 是 更 严格 的 放置 策略 ， 这 个 策略 将 第 & 十 1 层 的 某 个 块 限 
制 放 置 在 第 & 层 块 的 一 个 小 的 子 集中 (有 时 只 是 一 个 块 )。 例 如 ， 在 图 6-22 中 ， 我 们 可 以 
确定 第 & 十 1 层 的 块 i 必须 放置 在 第 & 层 的 块 (i mod 4) 中 。 例 如 ， 第 & 十 1 层 的 块 0、4、8 
和 12 会 映射 到 第 & 层 的 块 0; 块 1、5、9 和 13 会 映射 到 块 1; 依 此 类 推 。 注 意 ， 图 6-22 
中 的 示例 缓存 使 用 的 就 是 这 个 策略 。 

这 种 限制 性 的 放置 策略 会 引起 一 种 不 命中 ， 称 为 冲突 不 命中 (conflict miss)， 在 这 种 
情况 中 ， 缓 存 足 够 大 ， 能 够 保存 被 引用 的 数据 对 象 ， 但 是 因为 这 些 对 象 会 映射 到 同一 个 组 
存 块 ， 缓 存 会 一 直 不 命中 。 例 如 ， 在 图 6-22 中 ， 如 果 程 序 请 求 块 0， 然 后 块 8， 然 后 块 0， 
然后 块 8， 依 此 类 推 ， 在 第 & 层 的 缓存 中 ， 对 这 两 个 块 的 每 次 引用 都 会 不 命中 ， 即 使 这 个 
缓存 总 共 可 以 容纳 4 个 块 。 . 

程序 通常 是 按照 一 系列 阶段 (如 循环 ) 来 运行 的 ， 每 个 阶段 访问 缓存 块 的 某 个 相对 稳定 
不 变 的 集合 。 例 如 ， 一 个 绕 套 的 循环 可 能 会 反复 地 访问 同一 个 数组 的 元 素 。 这 个 块 的 集合 
称 为 这 个 阶段 的 工作 集 (working set) 。 当 工作 集 的 大 小 超过 缓存 的 大 小 时 ， 缓 存 会 经 历 容 
量 不 命中 (capacity miss) 。 换 名 话说 就 是 ， 缓 存 太 小 了 ， 不 能 处 理 这 个 工作 集 。 

4. 缓存 管理 

正如 我 们 提 到 过 的 ， 存 储 器 层次 结构 的 本 质 是 ， 每 一 层 存 储 设 备 都 是 较 低 一 层 的 组 
存 。 在 每 一 层 上 ， 某 种 形式 的 逻辑 必须 管理 缓存 。 这 里 ， 我 们 的 意思 是 指 某 个 东西 要 将 组 
存 划分 成 块 ， 在 不 同 的 层 之 间 传 送 块 ， 判 定 是 命中 还 是 不 命中 ， 并 处 理 它 们 。 管 理 缓存 的 
逻辑 可 以 是 硬件 、 软 件 ， 或 是 两 者 的 结合 。 

例如 ， 编 译 器 管理 寄存 器 文件 ， 缓 存 层次 结构 的 最 高 层 。 它 决定 当 发 生 不 命中 时 何 时 
发 射 加 载 ， 以 及 确定 哪个 寄存 器 来 存放 数据 。L1、L2 和 L3 层 的 缓存 完全 是 由 内 置 在 缓存 
中 的 硬件 逻辑 来 管理 的 。 在 一 个 有 虚拟 内 存 的 系统 中 ，DRAM 主 存 作为 存储 在 磁盘 上 的 
数据 块 的 缓存 ， 是 由 操作 系统 软件 和 CPU 上 的 地 址 翻译 硬件 共同 管理 的 。 对 于 一 个 具有 
像 AFS 这 样 的 分 布 式 文件 系统 的 机 器 来 说 ， 本 地 磁盘 作为 缓存 ， 它 是 由 运行 在 本 地 机 器 
上 的 AFS 客户 端 进程 管理 的 。 在 大 多 数 时 候 ， 缓 存 都 是 自动 运行 的 ， 不 需要 程序 采取 特 
殊 的 或 显 式 的 行动 。 


6.3.2 存储 器 层次 结构 概念 小 结 
概括 来 说 ， 基 于 缓存 的 存储 器 层次 结构 行 之 有 效 ， 是 因为 较 慢 的 存储 设备 比较 快 的 存 
储 设 备 更 便宜 ， 还 因为 程序 倾向 于 展示 局 部 性 : 
@ 利用 时 间 局 部 性 : 由 于 时 间 局 部 性 ， 同 一 数据 对 象 可 能 会 被 多 次 使 用 。 一 旦 一 个 数 
据 对 象 在 第 一 次 不 命中 时 被 复制 到 缓存 中 ， 我 们 就 会 期 望 后 面 对 该 目标 有 一 系列 的 
访问 命中 。 因 为 缓存 比 低 一 层 的 存储 设备 更 快 ， 对 后 面 的 命中 的 服务 会 比 最 开始 的 
不 命中 快 很 多 。 
@ 利用 空间 局 部 性 : 块 通常 包含 有 多 个 数据 对 象 。 由 于 空间 局 部 性 ， 我 们 会 期 望 后 面 ， 
对 该 块 中 其 他 对 象 的 访问 能 够 补偿 不 命中 后 复制 该 块 的 花费 。 
现代 系统 中 到 处 都 使 用 了 缓存 。 正 如 从 图 6-23 中 能 够 看 到 的 那样 ，CPU 芯片 、 操 作 
系统 、 分 布 式 文件 系统 中 和 万 维 网 上 都 使 用 了 缓存 。 各 种 各 样 硬件 和 软件 的 组 合 构 成 和 管 
理 着 缓存 。 注 意 ， 图 6-23 中 有 大 量 我 们 还 未 涉及 的 术语 和 缩写 。 在 此 我 们 包括 这 些 术语 
和 缩写 是 为 了 说 明 缓 存 是 多 么 的 普遍 。 
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类 型 缓存 什么 被 缓存 在 何 处 延迟 〈 周 期 数 ) 由 谁 管理 | 
CPU 寄存 器 4 节 字 或 8 字 节 字 芯片 上 的 CPU 寄存 器 编译 器 
TLB 地 址 翻译 芯片 上 的 TLB 硬件 MMU 
L1 高 速 缓存 64 字 节 块 芯片 上 的 LI 高 速 缓存 硬件 
L2 高 速 缓存 64 字 节 块 芯片 上 的 L2 高 速 缓存 硬件 
L3 高 速 缓存 64 字 节 块 芯片 上 的 L3 高 速 缓存 硬件 
虚拟 内 存 4KB 页 主 存 硬件 + OS 
缓冲 区 缓存 部 分 文件 主 存 OS 
| 磁盘 缓存 磁盘 扇 区 磁盘 控制 器 100 000 控制 器 固件 
网 络 缓存 部 分 文件 本 地 磁盘 10 000 000 NFS 客 户 
浏览 器 缓存 Web 页 本 地 磁盘 10 000 000 Web 浏 览 器 
Web 缓 存 Web 页 远程 服务 器 磁盘 1000000000 | Web 代 理 服务 器 














图 6-23 缓存 在 现代 计算 机 系统 中 无 处 不 在 。TLB: 翻译 后 备 缓冲 器 (Translation Lookaside Buffer) ; 
MMU: 内 存 管 理 单元 (Memory Management Unit); OS: 操作 系统 (OPperating System ); 
AFS: 安德鲁 文件 系统 (Andrew File System); NFS: 网 络 文件 系统 (Network File Systemy) 


6.4 高 速 缓存 存储 器 
早期 计算 机 系统 的 存储 器 层次 结构 只 有 三 层 : CPU 寄存 器 、DRAM 主 存储 器 和 磁盘 
存储 。 不 过 ， 由 于 CPU 和 主 存 之 间 逐 渐 增 大 的 差距 ， 系 统 设计 者 被 迫 在 CPU 寄存 器 文件 
和 主 存 之 间 插 入 了 一 个 小 的 SRAM 高 速 缓存 存储 器 ， 称 为 Ll 高 速 缓存 (一 级 缓存 ) ， 如 
图 6-24 所 示 。L1 高 速 缓存 的 访问 速度 几乎 和 寄存 器 一 样 快 ， 典 型 地 是 大 约 4 个 时 钟 周期 。 
CPU 芯片 









寄存 器 文件 


mw | 时 





图 6-24 高 速 缓存 存储 器 的 典型 总 线 结构 


随 着 CPU 和 主 存 之 间 的 性 能 差距 不 断 增 大 ， 系 统 设计 者 在 Ll 高 速 缓存 和 主 存 之 间 又 
插入 了 一 个 更 大 的 高 速 缓存 ， 称 为 L2 高 速 缓存 ， 可 以 在 大 约 10 个 时 钟 周 期 内 访问 到 它 。 
有 些 现代 系统 还 包括 有 一 个 更 大 的 高 速 缓存 ， 称 为 L3 高 速 缓存 ， 在 存储 器 层次 结构 中 ， 
它 位 于 L2 高 速 缓存 和 主 存 之 间 ， 可 以 在 大 约 50 个 周期 内 访问 到 它 。 虽 然 安 排 上 有 相当 多 
的 变化 ， 但 是 通用 原则 是 一 样 的 。 对 于 下 一 节 中 的 讨论 ， 我 们 会 假设 一 个 简单 的 存储 器 层 
次 结构 ，CPU 和 主 存 之 间 只 有 一 个 Ll 高 速 缓存 。 


6.4.1 通用 的 高 速 缓存 存储 器 组 织 结构 


考虑 一 个 计算 机 系统 ， 其 中 每 个 存储 器 地 址 有 mm 位， 形成 M 王 2 个 不 同 的 地 址 。 如 
图 6-25a 所 示 ， 这 样 一 个 机 器 的 高 速 缓存 被 组 织 成 一 个 有 S 一 2 个 高 速 缓存 组 (cache set) 的 
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数组 。 每 个 组 包含 玉 个 高 速 缓存 行 (cache line)。 每 个 行 是 由 一 个 B==2* 字 节 的 数据 所 
《block) 组 成 的 ， 一 个 有 效 位 (valid bit) 指 明 这 个 行 是 否 包 含有 意义 的 信息 ， 还 有 1 二 m 一 
(5 十 s) 个 标记 位 (tag bit)( 是 当前 块 的 内 存 地 址 的 位 的 一 个 子 集 )， 它们 唯一 地 标识 存储 在 
这 个 高 速 缓存 行 中 的 块 。 


每 行 1 个 每 行 ! 个 每 个 高 速 缓存 块 
有 效 位 ”标记 位 有 B=2, 字 节 
Br 


,i 
[有 有 效 | [标记 ] [oT1|… [及 1 
[oT iT Ta-1 
TT 
畏 殉 [CE ] 







组 0: 每 组 8 行 





S=25 组 









看 效 ] [ 标记 ] [0T1T-… [s-1 
请 效 ] [标记 ] [Lo [21 


组 S-1: | 


高 速 缓存 大 小 C=8xExS 数 据 字 节 
a) 


1 位 3 位 2 位 


标记 组 索引 块 偏 移 
b) 
图 6-25 ”高 速 缓 存 (S，E，B，m) 的 通用 组 织 。a) 高 速 缓存 是 一 个 高 速 缓存 组 的 数组 。 每 个 组 包含 
一 个 或 多 个 行 ， 每 个 行 包含 一 个 有 效 位 ， 一 些 标 记 位 ， 以 及 一 个 数据 块 ; b) 高 速 缓 存 的 
结构 将 m 个 地 址 位 划分 成 了 zt 个 标记 位 、* 个 组 索引 位 和 6。 个 块 偏 移 位 

一 般 而 言 ， 高 速 缓存 的 结构 可 以 用 元 组 (S,， EE，B，m) 来 描述 。 高 速 缓存 的 大 小 (或 
容量 )C 指 的 是 所 有 块 的 大 小 的 和 。 标 记 位 和 有 效 位 不 包括 在 内 。 因 此 ,C= SXEXB。 

当 一 条 加 载 指令 指示 CPU 从 主 存 地 址 A 中 读 一 个 字 时 ， 它 将 地 址 A 发 送 到 高 速 组 
存 。 如 果 高 速 缓存 正 保 存 着 地 址 A 处 那个 字 的 副本 ， 它 就 立即 将 那个 字 发 回 给 CPU。 那 
么 高 速 缓存 如 何 知道 它 是 否 包 含 地 址 A 处 那个 字 的 副本 的 呢 ? 高 速 缓存 的 结构 使 得 它 能 j 
过 简单 地 检查 地 址 位 ， 找 到 所 请 求 的 字 ， 类 似 于 使 用 极其 简单 的 哈 希 函 数 的 哈 希 表 。 下 面 
介绍 它 是 如 何 工作 的 : 

参数 S 和 B 将 m 个 地 址 位 分 为 了 三 个 字段 ， 如 图 6-25b 所 示 。A 中 s 个 组 索引 位 是 一 
个 到 S 个 组 的 数组 的 索引 。 第 一 个 组 是 组 0， 第 二 个 组 是 组 1， 依 此 类 推 。 组 索引 位 被 解 
释 为 一 个 无 符号 整数 ， 它 告诉 我 们 这 个 字 必 须 存储 在 哪个 组 中 。 一 旦 我 们 知道 了 这 个 字 必 
须 放 在 哪个 组 中 ，A 中 的 :个 标记 位 就 告诉 我 们 这 个 组 中 的 哪 一 行 包 含 这 个 字 ( 如 果 有 的 
话 )。 当 且 仅 当 设 置 了 有 效 位 并 且 该 行 的 标记 位 与 地 址 A 中 的 标记 位 相 匹 配 时 ， 组 中 的 这 
一 行 才 包含 这 个 字 。 一 旦 我 们 在 由 组 索引 标识 的 组 中 定位 了 由 标号 所 标识 的 行 ， 那 么 5 个 
块 偏 移 位 给 出 了 在 B 个 字 节 的 数据 块 中 的 字 偏 移 。 

你 可 能 已 经 注意 到 了 ， 对 高 速 缓存 的 描述 使 用 了 很 多 符号 。 图 6-26 对 这 些 符 号 做 了 
个 小 结 ， 供 你 参考 。 
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基本 参数 
描述 
组 数 
每 个 组 的 行 数 
块 大 小 ( 字 节 ) 一 | 
( 主 存 ) 物理 地 址 位 数 









































衍生 出 来 的 量 
描述 
内 存 地 址 的 最 大 数量 








































s=log,(S) 组 索引 位 数量 
b=log,(B) | 块 偏 移 位 数量 
t=m_(s+b) | 标记 位 数量 
C=BXEXS | 不 包括 像 有 效 位 和 标记 位 这 样 开销 的 高 速 缓存 大 小 〈 字 节 ) 








图 6-26 高 速 缓存 参数 小 结 


这 练习 题 6.9 下 表 给 出 了 儿 个 不 同 的 高 速 缓存 的 参数 。 确 定 每 个 高 速 缓存 的 高 速 缓存 
组 数 (S)、 标 记 位 数 (t)、 组 索引 位 数 (s) 以 及 块 偏 移 位 数 (5)。 





6.4.2 直接 映射 高 速 缓存 
根据 每 个 组 的 高 速 缓存 行 数 已， 高 速 缓存 被 分 为 不 同 的 类 。 每 个 组 只 有 一 行 (E=- 1) 的 
高 速 缓存 称 为 直接 映射 高 速 缓存 (direct-mapped cache)( 见 图 6-27) 。 直 接 映 射 高 速 缓存 是 
最 容易 实现 和 理解 的 ， 所 以 我 们 会 以 它 为 例 来 说 明 一 些 高 速 缓存 工作 方式 的 通用 概念 。 
9 } a 


组 1: 





组 9-1: 高 速 缓存 块 
图 6-27 ”直接 映射 高 速 缓存 (下 = 1) 。 每 个 组 只 有 一行 


假设 我 们 有 这 样 一 个 系统 ， 它 有 一 个 CU、 一 个 寄存 器 文件 、 一 个 L1 高 速 缓存 和 一 
个 主 存 。 当 CPU 执行 一 条 读 内 存 字 w 的 指令 ， 它 向 L1 高 速 缓存 请 求 这 个 字 。 如 果 LI 高 
速 缓 存 有 ww 的 一 个 缓存 的 副本 ,那么 就 得 到 L1 高速 缓存 命中 ,高速 缓存 会 很 快 抽取 出 


”w， 并 将 它 返 回 给 CPU。 否 则 就 是 缓存 不 命中 ， 当 L1 高 速 缓存 向 主 存 请 求 包 含 w 的 块 的 


一 个 副本 时 ，CPU 必须 等 待 。 当 被 请 求 的 块 最 终 从 内 存 到 达 时 ，L1 高 速 缓 存 将 这 个 块 存 
， 放 在 它 的 一 个 高 速 缓存 行 里 ， 从 被 存储 的 块 中 抽取 出 字 w， 然 后 将 它 返回 给 CPU。 高 速 








缓存 确定 一 个 请 求 是 否 命中 ， 然 后 抽取 出 被 请 求 的 字 的 过 程 ， 分 为 三 步 : 1) 组 选择 ; 2) 
行 匹配 ; 3) 字 抽 取 。 

1. 直接 映射 高 速 缓存 中 的 组 选择 

在 这 一 步 中 ， 高 速 缓存 从 w 的 地 址 中 间 抽 取出 > 个 组 索引 位 。 这 些 位 被 解释 成 一 个 对 应 
于 一 个 组 号 的 无 符号 整数 。 换 句 话 来 说 ， 如 果 我 们 把 高 速 缓存 看 成 是 一 个 关于 组 的 一 维 数 
组 ， 那 么 这 些 组 索引 位 就 是 一 个 到 这 个 数组 的 索引 。 图 6-28 展示 了 直接 映射 高 速 缓存 的 组 选 
择 是 如 何 工 作 的 。 在 这 个 例子 中 ， 组 索引 位 00001, 被 解释 为 一 个 选择 组 1 的 整数 索引 。 


组 0，| [再 效 
选 纪 
9 组 1，| 吊 获 高 速 绥 存 烽 


2 立 b 位 二 二 
组 S-1: 高 速 组 存世 
0 


m-l 


标记 组 索引 块 偏 移 
图 6-28 直接 映射 高 速 缓存 中 的 组 选择 


2. 直接 映射 高 速 缓存 中 的 行 匹配 
在 上 一 步 中 我 们 已 经 选择 了 某 个 组 i， 接 下 来 的 一 步 就 要 确定 是 否 有 字 w 的 一 个 副本 
存储 在 组 i 包含 的 一 个 高 速 缓存 行 中 。 在 直接 映射 高 速 缓存 中 这 很 容易 ， 而 且 很 快 ， 这 是 
因为 每 个 组 只 有 一 行 。 当 且 仅 当 设 置 了 有 效 位 ， 而 且 高 速 缓存 行 中 的 标记 与 w 的 地 址 中 的 
标记 相 匹 配 时 ， 这 一 行 中 包含 zw 的 一 个 副本 。 
图 6-29 展示 了 直接 映射 高 速 缓存 中 行 匹配 是 如 何 工 作 的 。 在 这 个 例子 中 ， 选 中 的 组 
中 只 有 一 个 高 速 缓存 行 。 这 个 行 的 有 效 位 设置 了 ， 所 以 我 们 知道 标记 和 块 中 的 位 是 有 意义 
的 。 因 为 这 个 高 速 缓存 行 中 的 标记 位 与 地 址 中 的 标记 位 相 匹 配 ， 所 以 我 们 知道 我 们 想 要 的 
那个 字 的 一 个 副本 确实 存储 在 这 个 行 中 。 换 旬 话 说， 我 们 得 到 一 个 缓存 命中 。 另 一 方面 ， 
如 果 有 效 位 没有 设置 ， 或 者 标记 不 相 匹 配 ， 那 么 我 们 就 得 到 一 个 缓存 不 命中 。 
=1?( 1) 有 效 位 必须 设置 
0 1 





和 3 














选择 的 组 (i) : 


(2 ) 高 速 缓存 行 中 的 标 
记 位 必须 与 地 址 中 =? 


(3) 如 果 (1) 和 (2) 满足 ， 
那么 高 速 缓存 命中 ， 块 偏 移 就 


的 标记 位 相 匹配 。 选择 起 始 字 节 。 
1 位 s 位 六 位 
om 一 -一 一 一 
m-l 


标记 组 索引 块 偏 移 


图 6-29 直接 映射 高 速 缓存 中 的 行 匹配 和 字 选 择 。 在 高 速 缓存 块 中 ，ra 表示 字 忆 
的 低位 字 节 ，w, 是 下 一 个 字 节 ， 依 此 类 推 


3. 直接 映射 高 速 缓存 中 的 字 选 择 

一 旦 命中 ， 我 们 知道 w 就 在 这 个 块 中 的 菜 个 地 方 。 最 后 一 步 确定 所 需要 的 字 在 块 中 是 
从 哪里 开始 的 。 如 图 6-29 所 示 ， 块 偏 移 位 提供 了 所 需要 的 字 的 第 一 个 字 节 的 偏 移 。 就 像 
我 们 把 高 速 缓存 看 成 一 个 行 的 数组 一 样 ， 我 们 把 块 看 成 一 个 字 节 的 数组 ， 而 字 节 偏 移 是 到 
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这 个 数组 的 一 个 索引 。 在 这 个 示例 中 ， 块 偏 移 位 是 100;， 它 表明 w 的 副本 是 从 块 中 的 字 
节 4 开 始 的 (我 们 假设 字 长 为 4 字 节 )。 

4. 直接 映射 高 速 缓存 中 不 命中 时 的 行 蔡 换 

如 果 缓 存 不 命中 ， 那 么 它 需 要 从 存储 器 层次 结构 中 的 下 一 层 取 出 被 请 求 的 块 ， 然 后 将 
新 的 块 存储 在 组 索引 位 指示 的 组 中 的 一 个 高 速 缓 存 行 中 。 一 般 而 言 ， 如 果 组 中 都 是 有 效 高 
速 缓存 行 了 ， 那 么 必须 要 驱逐 出 一 个 现存 的 行 。 对 于 直接 映射 高 速 缓存 来 说 ， 每 个 组 只 
含有 一 行 ， 蔡 换 策略 非常 简单 : 用 新 取出 的 行 替换 当前 的 行 。 

5. 综合 : 运行 中 的 直接 映射 高 速 缓存 

高 速 缓存 用 来 选择 组 和 标识 行 的 机 制 极 其 简单 ， 因 为 硬件 必须 在 几 个 纳 秒 的 时 间 内 完 
成 这 些 工 作 。 不 过 ， 用 这 种 方式 来 处 理 位 是 很 令 人 困惑 的 。 一 个 具体 的 例子 能 帮助 解释 清 
楚 这 个 过 程 。 假 设 我 们 有 一 个 直接 映射 高 速 绥 存 ， 描 述 如 下 

(S,E,B,m) = (4,1,2,4) 

换 句 话说 ， 高 速 缓存 有 4 个 组 ， 每 个 组 一 行 ， 每 个 块 2 个 字 节 ， 而 地 址 是 4 位 的 。 我 们 还 假设 
每 个 字 都 是 单字 节 的 。 当 然 ， 这 样 一 些 假设 完全 是 不 现实 的 ， 但 是 它们 能 使 示例 保持 简单 。 

当 你 初学 高 速 缓存 时 ， 列 举 出 整个 地 址 空间 并 划分 好 位 是 很 有 帮助 的 ， 就 像 我 们 在 
图 6-30 对 4 位 的 示例 所 做 的 那样 。 关 于 这 个 列举 出 的 空间 ， 有 一 些 有 趣 的 事情 值得 注意 : 

































地 址 标记 位 索引 位 块 号 
(十 进 制 ) (£1) (s=2) (b=1) (十 进 制 ) 
0 0 00 0 0 
1 0 00 1 0 
2 0 01 0 1 
3 0 01 1 1 
4 0 10 0 2 
5 0 10 1 2 
6 0 11 0 3 
g 0 11 1 3 
8 1 00 0 4 
9 1 00 1 4 
10 1 01 0 5 
11 1 01 1 5 
12 1 10 0 6 
13 1 10 1 6 
14 1 11 0 区 
15 1 11 1 7 

















图 6-30 示例 直接 映射 高 速 缓存 的 4 位 地 址 空间 


e 标记 位 和 索引 位 连 起 来 唯一 地 标识 了 内 存 中 的 每 个 块 。 例 如 ， 块 0 是 由 地 址 0 和 1 
组 成 的 ， 块 1 是 由 地 址 2 和 3 组 成 的 ， 块 2 是 由 地 址 4 和 5 组 成 的 ， 依 此 类 推 。 

e 因为 有 8 个 内 存 块 ， 但 是 只 有 4 个 高 速 缓存 组 ， 所 以 多 个 块 会 映射 到 同一 个 高 速 组 
存 组 ( 即 它 们 有 相同 的 组 索引 )。 例 如 ， 块 0 和 4 都 映射 到 组 0， 块 1 和 5 都 映射 到 
组 1， 等 等 。 

e 映射 到 同一 个 高 速 缓存 组 的 块 由 标记 位 唯一 地 标识 。 例 如 ， 块 0 的 标记 位 为 0， 而 
块 4 的 标记 位 为 1， 块 1 的 标记 位 为 0， 而 块 5 的 标记 位 为 1， 以 此 类 推 。 

让 我 们 来 模拟 一 下 当 CPU 执行 一 系列 读 的 时 候 ， 高 速 缓存 的 执行 情况 。 记 住 对 于 这 
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个 示例 ,我们 假设 CPU 读 1 字 节 的 字 。 虽 然 这 种 手工 的 模拟 很 乏味 ， 你 可 能 想 要 跳 过 它 ， 
但 是 根据 我 们 的 经 验 ， 在 学 生 们 做 过 几 个 这 样 的 练习 之 前 ， 他 们 是 不 能 真正 理解 高 速 缓 存 
是 如 何 工作 的 。 
初始 时 ， 高 速 缓存 是 空 的 ( 即 每 个 有 效 位 都 是 0) : 
组 有 效 位 。 ”标记 位 块 [0] 块 [1] 





Cy 


0 
0 
0 
0 


Ww DD 一 


表 中 的 每 一 行 都 代表 一 个 高 速 缓存 行 。 第 一 列表 明 该 行 所 属 的 组 ,但 是 请 记 住 提供 这 个 位 
只 是 为 了 方便 ， 实 际 上 它 并 不 真是 高 速 缓存 的 一 部 分 。 后 面 四 列 代表 每 个 高 速 缓存 行 的 实 
际 的 位 。 现 在 ， 让 我 们 来 看 看 当 CPU 执行 一 系列 读 时 ， 都 发 生 了 什么 : 

1) 读 地 址 0 的 字 。 因 为 组 0 的 有 效 位 是 0， 是 缓存 不 命中 。 高 速 缓存 从 内 存 ( 或 低 一 
层 的 高 速 缓存 ) 取 出 块 0， 并 把 这 个 块 存储 在 组 0 中 。 然 后 ， 高 速 缓存 返回 新 取出 的 高 速 组 
存 行 的 块 [0] 的 mL0j( 内 存 位 置 0 的 内 容 )。 


组 有 效 位 标记 位 块 [0] 块 [1] 


于 曾 革 ; 


2) 读 地 址 1 的 字 。 这 次 会 是 高 速 缓存 命 速 缓存 立即 从 高 速 缓存 行 的 块 L1] 中 返 
回 m[1]。 高 速 缓存 的 状态 没有 变化 。 
3) 读 地 址 13 的 字 。 由 于 组 2 中 的 高 速 缓存 行 不 是 有 效 的 ， 所 以 有 缓存 不 命中 。 高 速 
缓存 把 块 6 加 载 到 组 2 中 ， 然 后 从 新 的 高 速 缓存 行 的 块 L1] 中 返回 m[L13]。 
组 有 效 位 标记 位 块 [0] 块 [1] 
1 0 m[0] m[1] 


ww 局 一 ©O 











0 

1 0 

2 1 1 m[l2] | mt13] 
3 0 





4) 读 地 址 8 的 字 。 这 会 发 生 缓存 不 命中 。 组 0 中 的 高 速 缓存 行 确实 是 有 效 的 ， 但 是 标 ， 
记 不 匹配 。 高 速 缓存 将 块 4 加 载 到 组 0 中 (替换 读 地 址 0 时 读 和 人 的 那 一 行 )， 然 后 从 新 的 高 
速 缓存 行 的 块 L0j 中 返回 mL 8]。 
组 有 效 位 标记 位 块 [0] 块 [1] 





1 
0 
1 
0 








5) 读 地 址 0 的 字 。 又 会 发 生 缓存 不 命中 ， 因 为 在 前 面 引用 地 址 8 时 ， 我 们 刚好 替换 了 
块 0。 这 就 是 冲突 不 命中 的 一 个 例子 ， 也 就 是 我 们 有 足够 的 高 速 缓存 空间 ， 但 是 却 交 蔡 地 
引用 映射 到 同一 个 组 的 块 。 
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组 有 效 位 标记 位 块 [0] 块 [1] 
0 1 0 m[0] mil] 
1 0 
1 1 m[12] | m[13] 
3 0 








6. 直接 映射 高 速 缓存 中 的 冲突 不 命中 

冲突 不 命中 在 真实 的 程序 中 很 常见 ， 会 导致 令 人 困惑 的 性 能 问题 。 当 程序 访问 大 小 为 
2 的 需 的 数组 时 ， 直 接 映 射 高 速 缓存 中 通常 会 发 生 冲 突 不 命中 。 例 如 ， 考虑 一 个 计算 两 个 
向 量 点 积 的 函数 


float dotprod(float x[8], float y[8]) 


| 

2 远 

3 float sum = 0.0; 

4 i ol 补 站 

S 

6 for (i = 0; i < 8; i++) 
7 sum += X[i] * y[i]; 
8 return sum; 

J 


对 于 x 和 y 来 说 ， 这 个 函数 有 良好 的 空间 局 部 性 ， 因 此 我 们 期 望 它 的 命中 率 会 比较 高 。 不 
幸 的 是 ， 并 不 总 是 如 此 。 

假设 浮 点 数 是 4 个 字 节 ，x 被 加 载 到 从 地 址 0 开始 的 32 字 节 连续 内 存 中 ， 而 y 紧 跟 在 
x 之 后 ， 从 地 址 32 开始 。 为 了 简便 ,假设 一 个 块 是 16 个 字 节 (足够 容纳 4 个 浮 点 数 )， 高 
速 缓存 由 两 个 组 组 成 ， 高 速 缓存 的 整个 大 小 为 32 字 节 。 我 们 会 假设 变量 sum 实际 上 存放 
在 一 个 CPU 寄存 器 中 ， 因 此 不 需要 内 存 引 用 。 根 据 这 些 假 设 每 个 x[i] 和 y[i] 会 映射 到 相 
同 的 高 速 缓存 组 : 


Hl 
油 
蓬 
Es 


组 索引 元 素 地 址 组 索引 

















x[ 
xX 
本 
x[ 
x[ 
x[ 
X 
xX 











在 运行 时 ， 循 环 的 第 一 次 迭代 引用 x[0] ， 缓 存 不 命中 会 导致 包含 x[0] 一 x[3] 的 块 被 
加 载 到 组 0。 接 下 来 是 对 y[0] 的 引用 ， 又 一 次 缓存 不 命中 ， 导 致 包含 y[0] 一 y[3] 的 块 被 
复制 到 组 0， 覆盖 前 一 次 引用 复制 进来 的 x 的 值 。 在 下 一 次 迭代 中 ， 对 xf[1] 二 引用 不 多 
”中 ， 导 致 x[0] 一 x[3] 的 块 被 加 载 回 组 0， 覆 盖 掉 y[0]~y[3] 的 块 。 因 而 现在 我 们 就 有 了 
一 个 冲突 不 命中 ， 而 且 实 际 上 后 面 每 次 对 x 和 y 的 引用 都 会 导致 冲突 不 命中 ， 因 为 我 们 在 


”x 和 y 的 块 之 间 持 动 (thrash)。 术 语 “ 拌 动 ”描述 的 是 这 样 一 种 情况 ， 即 高 速 缓 存 反 复 地 


加 载 和 驱逐 相同 的 高 速 缓存 块 的 组 。 
简要 来 说 就 是 ， 即 使 程序 有 良好 的 空间 局 部 性 ， 而 且 我 们 的 高 速 缓存 中 也 有 足够 的 空间 
”来 存放 x[i] 和 y[i] 的 块 ， 每 次 引用 还 是 会 导致 冲突 不 命中 ， 这 是 因为 这 些 块 被 映射 到 了 同 


432 ”第 一 部 分 程序 结构 和 执行 








一 个 高 速 缓存 组 。 这 种 抖动 导致 速度 下 降 2 或 3 倍 并 不 稀奇 。 另 外 ， 还 要 注意 虽然 我 们 的 示 
例 极其 简单 ， 但 是 对 于 更 大 、 更 现实 的 直接 映射 高 速 缓存 来 说 ， 这 个 问题 也 是 很 真实 的 。 
幸运 的 是 ， 一 旦 程序 员 意识 到 了 正在 发 生 什 么 ， 就 很 容易 修正 抖动 问题 。 一 个 很 简单 的 方 
法 是 在 每 个 数组 的 结尾 放 B 字 节 的 填充 。 例 如 ， 不 是 将 x 定义 为 float x[8]， 而 是 定义 成 
float x[12]。 假 设 在 内 存 中 y 紧 跟 在 x 后 面 ,我 们 有 下 面 这 样 的 从 数组 元 素 到 组 的 映射 : 









































元 素 组 索引 元 素 地 址 组 索引 
过 [ 0 y[0] 48 1 
X [1 YL 52 1 
xf2] y[2] 56 1 
x[3] VL3] 60 1 
x[4] y[4] 64 0 
六 |[ 考 区 [8] 68 0 
x[6] y[6] 72 0 
x{7] y[7] 76 0 




















在 x 结尾 加 了 填充 ，x[i] 和 y[i] 现 在 就 映射 到 了 不 同 的 组 ， 消 除了 拉动 冲突 不 命中 。 
蕊 列 练习 题 6. 10 在 前 面 dotprod 的 例子 中 ， 在 我 们 对 数组 x 做 了 填充 之 后 ， 所 有 对 x 
和 yy 的 引用 的 命中 率 是 多 少 ? 


国 珂 为 什么 用 中 间 的 位 来 做 索引 
你 也 许 会 奇怪 ， 为 什么 高 速 缓 存 用 中 间 的 位 来 作为 组 索引 ， 而 不 是 用 高 位 。 为 什么 
用 中 间 的 位 更 好 ， 是 有 很 好 的 原因 的 。 图 6-31 说 明了 原因 。 如 果 高 位 用 做 索引 ， 那 么 
一 些 连续 的 内 存 块 就 会 映射 到 相同 的 高 速 缓存 块 。 例 如 ， 在 图 中 ， 头 四 个 块 映射 到 第 一 
个 高 速 缓存 组 ， 第 二 个 四 个 块 映 射 到 第 二 个 组 ， 依 此 类 推 。 如 果 一 个 程序 有 良好 的 空间 
局 部 性 ， 顺 序 扫描 一 个 数组 的 元 素 ， 那 么 在 任何 时 刻 ， 高 速 缓存 都 只 保存 着 一 个 块 大 小 
中 间 位 索引 


4 组 高 速 缓存 





图 6-31 为 什么 用 中 间 位 来 作为 高 速 缓存 的 索引 








的 数组 内 容 。 这 样 对 高 速 缓存 的 使 用 效率 很 低 。 相 比较 而 言 ， 以 中 间 位 作为 索引 ， 相 邻 
的 块 总 是 映射 到 不 同 的 高 速 缓存 行 。 在 这 里 的 情况 中 ， 高 速 缓存 能 够 存放 整个 大 小 为 C 
的 数组 片 ， 这 里 C 是 高 速 缓存 的 大 小 。 





SN 练习 题 6. 11 假想 一 个 高 速 缓存 ， 用 地 址 的 高 s 位 做 组 索引 ， 那 么 内 存 块 连续 的 片 
(chunk) 会 被 映射 到 同一 个 高 速 缓 存 组 。 
A. 每 个 这 样 的 连续 的 数组 片 中 有 多 少 个 块 ? 
B. 考虑 下 面 的 代码 ， 它 运行 在 一 个 高 速 缓存 形式 为 (S，E,， B, m) 一 (512，]1，32， 
32) 的 系统 上 : 
int array[4096]; 


for (i = 0; i < 4096; i++) 
sum += array[i]; 


在 任意 时 刻 ， 存 储 在 高 速 缓存 中 的 数组 块 的 最 大 数量 为 多 少 ? 


6.4.3 组 相 联 高 速 缓存 

直接 映射 高 速 缓存 中 冲突 不 命中 造成 的 问题 源 于 每 个 组 只 有 一 行 ( 或 者 ， 按 照 我 们 的 
术语 来 描述 就 是 瓦 =1) 这 个 限制 。 组 相 联 高 速 缓存 (set associative cache) 放 松 了 这 条 限制 ， 
所 以 每 个 组 都 保存 有 多 于 一 个 的 高 速 缓存 行 。 一 个 1 二 EC/B 的 高 速 缓存 通常 称 为 EE 路 
组 相 联 高 速 缓存 。 在 下 一 节 中 ， 我 们 会 讨论 已 = C/B 这 种 特殊 情况 。 图 6-32 展示 了 一 个 2 
路 组 相 联 高 速 缓存 的 结构 。 





有 效 高 速 缓存 块 
高 速 缓存 志 


有 效 高 速 缓存 块 
有 效 高 速 缓存 块 
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有 效 
| 有效 ] [ 标记 ] [ 高 速 缓存 块 | 


图 6-32 组 相 联 高 速 缓存 (1I<E<C/B)。 在 一 个 组 相 联 高 速 缓存 中 ， 每 个 组 包含 多 于 一 个 行 。 

这 里 的 特例 是 一 个 2 路 组 相 联 高 速 缓存 
1. 组 相 联 高 速 缓存 中 的 组 选择 
它 的 组 选择 与 直接 映射 高 速 缓存 的 组 选择 一 样 ， 组 索引 位 标识 组 。 图 6-33 总 结 了 这 
; 个 原理 。 
2. 组 相 联 高 速 缓存 中 的 行 匹 配 和 字 选 择 
， 组 相 联 高 速 缓存 中 的 行 匹 配 比 直接 映射 高 速 缓存 中 的 更 复杂 ， 因 为 它 必 须 检查 多 个 行 
”的 标记 位 和 有 效 位 ， 以 确定 所 请 求 的 字 是 否 在 集合 中 。 传 统 的 内 存 是 一 个 值 的 数组 ， 以 地 
， 址 作为 输入 ， 并 返回 存储 在 那个 地 址 的 值 。 另 一 方面 ， 相 联 存 储 器 是 一 个 (key，value) 对 
的 数组 ， 以 key 为 输入 ， 返 回 与 输入 的 key 相 匹 配 的 (key，value) 对 中 的 value 值 。 因 此 ， 
”我们 可 以 把 组 相 联 高 速 缓存 中 的 每 个 组 都 看 成 一 个 小 的 相 联 存储 器 ，key 是 标记 和 有 效 
位 ， 而 value 就 是 块 的 内 容 。 


组 S-1: 






















高 速 缓存 块 
到 





选择 的 组 
组 1: 
1 位 5 位 2 位 组 S-1: 
[| 0000 | =| 
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0 
标记 组 索引 块 偏 移 
图 6-33 组 相 联 高 速 缓存 中 的 组 选择 


图 6-34 展示 了 相 联 高 速 缓存 中 行 匹配 的 基本 思想 。 这 里 的 一 个 重要 思想 就 是 组 中 的 
任何 一 行 都 可 以 包含 任何 映射 到 这 个 组 的 内 存 块 。 所 以 高 速 缓存 必须 搜索 组 中 的 每 一 行 ， 
寻找 一 个 有 效 的 行 ， 其 标记 与 地 址 中 的 标记 相 匹 配 。 如 果 高 速 缓存 找到 了 这 样 一 行 ， 那 么 
我 们 就 命中 ， 块 偏 移 从 这 个 块 中 选择 一 个 字 ， 和 前 面 一 样 。 

=1? (1) 有 效 位 必须 设置 


选择 的 组 (i) : 






(3) 如 果 (1) 和 (2 ) 为 真 ， 


绥 存 行 中 其 一 征 
(2 ) 高 速 缓存 行 中 某 一 行 那么 高 迷 缓 存 谷中 然后 


=? 


的 标记 位 必须 匹配 地 
址 中 的 标记 位 。 块 偏 移 选 择 起 始 字 节 。 
t 位 s 位 b 位 
| 0lI0 TT i; | 100 | 
m-l 0 


标记 组 索引 块 偏 移 
图 6-34 ”组 相 联 高 速 缓存 中 的 行 匹 配 和 字 选 择 


3. 组 相 联 高 速 缓存 中 不 命中 时 的 行 替换 

如 果 CPU 请 求 的 字 不 在 组 的 任何 一 行 中 ， 那么 就 是 缓存 不 命中 ,高速 缓存 必须 从 内 
存 中 取出 包含 这 个 字 的 块 。 不 过 ,一 旦 高 速 缓 存 取 出 了 这 个 块 ， 该 蔡 换 哪个 行 呢 ”当然 ， 
如 果 有 一 个 空 行 ， 那 它 就 是 个 很 好 的 候选 。 但 是 如 果 该 组 中 没有 空 行 ， 那 么 我 们 必须 从 中 
选择 一 个 非 空 的 行 ， 希 望 CPU 不 会 很 快 引用 这 个 被 替换 的 行 。 

程序 员 很 难 在 代码 中 利用 高 速 缓存 替换 策略 ， 所 以 在 此 我 们 不 会 过 多 地 讲述 其 细节 。 
最 简单 的 蔡 换 策略 是 随机 选择 要 替换 的 行 。 其 他 更 复杂 的 策略 利用 了 局 部 性 原理 ， 以 使 在 
比较 近 的 将 来 引用 被 替换 的 行 的 概率 最 小 。 例 如 ， 最 不 常 使 用 (Least-Frequently-Used， 
LEFU) 策 略 会 替换 在 过 去 某 个 时 间 窗 口内 引用 次 数 最 少 的 那 一 行 。 最 近 最 少 使 用 (Least- 
Recently-Used，LRU) 策 略 会 替换 最 后 一 次 访问 时 间 最 久远 的 那 一 行 。 所 有 这 些 策 略 都 需 
要 额外 的 时 间 和 和 硬件。 但是， 越 往 存储 器 层次 结构 下 面 走 ， 远 离 CU， 一 次 不 命中 的 开 
销 就 会 更 加 昂贵 ， 用 更 好 的 替换 策略 使 得 不 命中 最 少 也 变 得 更 加 值得 了 。 


6. 4. 4 全 相 联 高 速 缓存 
全 相 联 高 速 缓存 (fully associative cache) 是 由 一 个 包含 所 有 高 速 缓存 行 的 组 ( 即 E=C/ 











B) 组 成 的 。 图 6-35 给 出 了 基本 结构 。 

[用 履 | [Se | [| 本 E= 唯 一 的 一 组 中 有 E=C/B 行 
[在 效 ] [标记 | -再生 英和 | 

图 6-35 全 相 联 高 速 缓存 (E 二 C/B)。 在 全 相 联 高 速 缓存 中 ， 一 个 组 包含 所 有 的 行 


1. 全 相 联 高 速 缓存 中 的 组 选择 
全 相 联 高 速 缓存 中 的 组 选择 非常 简单 ， 因 为 只 有 一 个 组 ， 图 6-36 做 了 个 小 结 。 注 意 
地 址 中 没有 组 索引 位 ， 地 址 只 被 划分 成 了 一 个 标记 和 一 个 块 偏 移 。 


高 速 缓存 所 








组 0: 











整个 高 速 缓存 只 有 一 个 组 ， 高 还 组 存 坎 
所 以 默认 总 是 选择 组 0。 : : 
eed ee 高 加 绥 存 
m-l 0 
标记 块 偏 移 


图 6-36 全 相 联 高 速 缓存 中 的 组 选择 。 注 意 没 有 组 索引 位 
2. 全 相 联 高 速 缓存 中 的 行 匹配 和 字 选 择 
全 相 联 高 速 缓存 中 的 行 瑟 配 和 字 选 择 与 组 相 联 高 速 缓存 中 的 是 一 样 的 ， 如 图 6-37 所 
示 。 它 们 之 间 的 区 别 主 要 是 规模 大 小 的 问题 。 


=1?( 1 ) 有 效 位 必须 设置 


整个 高 速 缓存 








(3) 如 果 (1) 和 (2) 满足 那么 高 


(2 ) 高 速 缓存 行 中 某 一 行 的 =? 速 缓存 命中 ， 然 后 块 偏 移 选 


标记 位 必须 匹配 地 址 中 节 
的 标记 位 。 人 — 0 i 
位 2 位 
[ 010 | 1 | 
m-!l 0 


标记 块 偏 移 
图 6-37 全 相 联 高 速 缓存 中 的 行 匹 配 和 字 选 择 


因为 高 速 缓存 电路 必须 并 行 地 搜索 许多 相 匹 配 的 标记 ， 构 造 一 个 又 大 又 快 的 相 联 高 速 
缓存 很 困难 ， 而 且 很 昂贵 。 因 此 ， 全 相 联 高 速 缓存 只 适合 做 小 的 高 速 缓存 ， 例 如 虚拟 内 存 
系统 中 的 翻译 备用 缓冲 器 (TLB)， 它 缓存 页 表 项 ( 见 9. 6.2 节 )。 

总 练习 题 6. 12 下 面 的 问题 能 帮助 你 加 强 理解 高 速 缓存 是 如 何 工作 的 。 有 如 下 假设 : 

@ 内 存 是 字 节 寻 址 的 。 

@ 内 存 访问 的 是 1 字 节 的 字 ( 不 是 4 字 节 的 字 )。 








@ 地 址 的 宽度 为 13 位 。 
e@ 高 速 缓存 是 2 路 组 相 联 的 (EE 二 2)， 块 大 小 为 4 字 节 (B 一 4)， 有 8 个 组 (S 二 8)。 
高 速 缓存 的 内 容 如 下 ， 所 有 的 数字 都 是 以 十 六 进 制 来 表示 的 : 

2 路 组 相 联 高 速 缓存 


行 0 行 1 


标记 位 有 效 位 字 节 0 字 节 1 字 节 2 字 节 3 | 标记 位 有 效 位 字 节 0 字 节 1 字 节 2 字 节 3 

























组 索引 



































0 1 86 30 3F 10 00 0 
1 60 三 EB0 为 38 1 00 BC 0B 37 
0 0B 0 
0 3 并 记 08 7B AD 
1 06 78 07 05 1 40 6117 人 @ 强 
1 0B DE 18 6E 0 
1 A0  B7 26 F0 0 
0 DE 1 12 Co 88 六 














下 面 的 图 展示 的 是 地 址 格式 (每 个 小 方 框 一 个 位 )。 指 出 (在 图 中 标 出 ) 用 来 确定 下 
列 内 容 的 字段 : 
CO 高 速 缓存 块 偏 移 
CI 高 速 缓存 组 索引 
CT 高 速 缓存 标记 


六 练 习题 6. 13 ”假设 一 个 程序 运行 在 练习 题 6-12 中 的 机 器 上 ， 它 引用 地 址 0x0E34 处 的 
1 个 字 节 的 字 。 指 出 访问 的 高 速 缓 存 条 目 和 十 六 进 制 表示 的 返回 的 高 速 缓存 字 节 信 ， 
指出 是 否 会 发 生 缓 存 不 命中 。 如 果 会 出 现 缓存 不 命中 ， 用 “一 ”来 表示 “返回 的 高 
缓存 字 节 ”。 

A. 地 址 格式 (每 个 小 方 框 一 个 位 ); 


12 11 10 9 8 7 6 5 4 3 这 0 


本 ES i 
B. 内 存 引 用 : 











| 参数 什 


高 速 缓存 块 偏 移 (CO) Ox | 
高 速 缓存 组 索引 〈CD) Ox | 























高 速 缓存 标记 (CT) Ox 
高 速 缓存 命中 ? (是 / 否 ) 
| 返回 的 高 速 缓存 字 节 Ox 





六 训 练习 题 6. 14 ”对 于 存储 器 地 址 0x0DD5， 再 做 一 遍 练 习题 6. 13。 
A. 地 址 格式 (每 个 小 方 框 一 个 位 )， 
12 1 10 ye 6 § 4 3 2 1 0 


i I 丙 古 册 疙 惠 5 
B. 内 存 引用 : 
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参 


高 速 缓存 块 偏 移 (CO) 
高 速 缓存 组 索引 (CI) 
高 速 缓存 标记 CT) 
高 速 缓 存 命中 ? (是 / 否 ) 

返回 的 高 速 缓存 字 节 


让 练习 题 6. 15 ”对 于 内 存 地 址 0x1FE4， 再 做 一 遍 练 习题 6. 13。 
A. 地 址 格式 (每 个 小 方 框 一 个 位 ): 


































B. 内 存 引 用 ， 














参数 值 
高 速 缓存 块 偏 移 “CO) 0x 


高 速 缓存 组 索引 《CI) 
高 速 缓存 标记 〈CT) 









高 速 缓存 命中 ? 〈 是 / 否 ) 


返回 的 高 速 缓存 字 节 0x 





人 ES 练习 题 6. 16 对 于 练习 题 6. 12 中 的 高 速 缓存 ， 列 出 所 有 的 在 组 3 中 会 命中 的 十 六 进 
制 内 存 地 址 。 


6.4.5 有 关 写 的 问题 


正如 我 们 看 到 的 ， 高 速 缓存 关于 读 的 操作 非常 简单 。 首 先 ， 在 高 速 缓存 中 查找 所 需 字 
w 的 副本 。 如 果 命 中 ， 立 即 返 回 字 w 给 CPU。 如 果 不 命 中 ， 从 存储 器 层次 结构 中 较 低 层 
中 取出 包含 字 w 的 块 ， 将 这 个 块 存储 到 某 个 高 速 缓存 行 中 (可 能 会 驱逐 一 个 有 效 的 行 )， 然 
后 返回 字 ww。 

写 的 情况 就 要 复杂 一 些 了 。 假 设 我 们 要 写 一 个 已 经 缓存 了 的 字 w( 写 命中 ，write hit) 。 
在 高 速 缓存 更 新 了 它 的 w 的 副本 之 后 ， 怎 么 更 新 w 在 层次 结构 中 紧 接 着 低 一 层 中 的 副本 
呢 ?” 最 简单 的 方法 ， 称 为 直 写 (write-through)， 就 是 立即 将 w 的 高 速 缓存 块 写 回 到 紧 接 着 
的 低 一 层 中 。 虽 然 简单 ， 但 是 直 写 的 缺点 是 每 次 写 都 会 引起 总 线 流 量 。 另 一 种 方法 ， 称 为 
号 回 (write-back) ， 尽 可 能 地 推迟 更 新 ， 只 有 当 替 换算 法 要 驱逐 这 个 更 新 过 的 块 时 ， 才 把 
它 写 到 紧 接 着 的 低 一 层 中 。 由 于 局 部 性 ， 写 回 能 显著 地 减少 总 线 流 量 ， 但 是 它 的 缺点 是 增 
加 了 复杂 人 性。 高速 缓存 必须 为 每 个 高 速 缓存 行 维护 一 个 额外 的 修改 位 (dirty bit) ， 表 明 这 
个 高 速 缓存 块 是 否 被 修改 过 。 

另 一 个 问题 是 如 何 处 理 写 不 命中 。 一 种 方法 ， 称 为 写 分 配 (write-allocate) ， 加 载 相应 
的 低 一 层 中 的 块 到 高 速 缓存 中 ， 然 后 更 新 这 个 高 速 缓存 块 。 写 分 配 试图 利用 写 的 空间 局 部 
性 , 但 是 缺点 是 每 次 不 命中 都 会 导致 一 个 块 从 低 一 层 传 送 到 高 速 缓存 。 另 一 种 方法 ， 称 为 
非 写 分 配 (not-writerallocate) ， 避 开 高 速 缓存 ， 直 接 把 这 个 字 写 到 低 一 层 中 。 直 写 高 速 组 
存 通常 是 非 写 分 配 的 。 写 回 高 速 缓存 通常 是 写 分 配 的 。 

为 写 操作 优化 高 速 缓存 是 一 个 细致 而 困难 的 问题 ， 在 此 我 们 只 略 讲 皮毛 。 细 节 随 系统 
的 不 同 而 不 同 ， 而 且 通 常 是 私有 的 ， 文 档 记 录 不 详细 。 对 于 试图 编写 高 速 缓存 比 较 友 好 的 
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程序 的 程序 员 来 说 ， 我 们 建议 在 心里 采用 一 个 使 用 写 回 和 写 分 配 的 高 速 缓存 的 模型 。 这 样 
建议 有 几 个 原因 。 通 常 ， 由 于 较 长 的 传送 时 间 ， 存 储 器 层次 结构 中 较 低层 的 缓存 更 可 能 
用 写 回 ， 而 不 是 直 写 。 例 如 ， 虚 拟 内 存 系统 (用 主 存 作 为 存储 在 磁盘 上 的 块 的 缓存 ) 只 使 用 
写 回 。 但 是 由 于 逻辑 电路 密度 的 提高 ， 写 回 的 高 复杂 性 也 越 来 越 不 成 为 阻碍 了 ， 我 们 在 现 
代 系 统 的 所 有 层次 上 都 能 看 到 写 回 缓存 。 所 以 这 种 假设 符合 当前 的 趋势 。 假 设 使 用 写 回 写 
分 配方 法 的 另 一 个 原因 是 ， 它 与 处 理 读 的 方式 相对 称 ， 因 为 写 回 写 分 配 试 图 利用 局 部 性 ， 
因此 ， 我 们 可 以 在 高 层次 上 开发 我 们 的 程序 ， 展 示 和 良好 的 空间 和 时 间 局 部 性 ， 而 不 是 试图 
为 某 一 个 存储 器 系统 进行 优化 。 





6.4.6 一 个 真实 的 高 速 缓存 层次 结构 的 解剖 

到 目前 为 止 ， 我 们 一 直 假 设 高 速 缓存 只 保存 程序 数据 。 不 过 ， 实 际 上 ， 高 速 缓存 既 保 
存 数据 ， 也 保存 指令 。 只 保存 指令 的 高 速 缓存 称 为 icache 。 只 保存 程序 数据 的 高 速 缓存 称 
为 d-cache 。 既 保存 指令 又 包括 数据 的 高 速 缓存 称 为 统一 的 高 速 缓存 (unified cache) 。 现 代 
处 理 器 包括 独立 的 -cache 和 d-cache。 这 样 做 有 很 多 原因 。 有 两 个 独立 的 高 速 缓存 ， 处 理 
器 能 够 同时 读 一 个 指令 字 和 一 个 数据 字 。i-cache 通常 是 只 读 的 ， 因 此 比较 简单 。 通 常会 针 
对 不 同 的 访问 模式 来 优化 这 两 个 高 速 缓存 ， 它 们 可 以 有 不 同 的 块 大 小 ， 相 联 度 和 容量 。 使 
用 不 同 的 高 速 缓存 也 确保 了 数据 访问 不 会 与 指令 访问 形成 冲突 不 命中 ， 反 过 来 也 是 一 样 ， 
代价 就 是 可 能 会 引起 容量 不 命中 增加 。 

图 6-38 给 出 了 Intel Core i7 处 理 器 的 高 速 缓存 层次 结构 。 每 个 CPU 芯片 有 四 个 核 。 
每 个 核 有 自己 私有 的 Ll i-cache、L1 d-cache 和 L2 统一 的 高 速 缓存 。 所 有 的 核 共 享 片 上 
L3 统一 的 高 速 缓存 。 这 个 层次 结构 的 一 个 有 趣 的 特性 是 所 有 的 SRAM 高 速 缓存 存储 器 都 
在 CPU 芯片 上 。 


处 理 器 封装 








图 6-38 ”Intel Core i7 的 高 速 缓存 层次 结构 


图 6-39 总 结 了 Core i7 高 速 缓存 的 基本 特性 。 
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| 。 高速 缓 存 类 型 让 相 联 度 (E) | 块 大 小 (B) | 组 数 (5) | 
| LI i-cache 4 32KB 8 64B 64 
| LI d-cache 4 | 32KB 8 | aB 64 
| 二 a 10 256KB 8 | 64B 512 
| 缓存 40~75 8MB 16 | 64B 8192 














图 6-39 ”Core i7 高 速 缓存 层次 结构 的 特性 
6.4.7 高 速 缓存 参数 的 性 能 影响 
有 许多 指标 来 衡量 高 速 缓存 的 性 能 
@ 不 命中 率 (miss rate) 。 在 一 个 程序 执行 或 程序 的 一 部 分 执行 期 间 ， 内 存 引 用 不 命中 
的 比率 。 它 是 这 样 计算 的 ; 不 命中 数量 /引用 数量 。 

e 命中 率 (hit rate)。 命 中 的 内 存 引 用 比率 。 它 等 于 1 一 不 命中 率 。 

e@ 命中 时 间 (hit time)。 从 高 速 缓存 传送 一 个 字 到 CPU 所 需 的 时 间 ， 包 括 组 选择 、 行 

确认 和 字 选 择 的 时 间 。 对 于 Ll 高 速 缓存 来 说 ,命中 时 间 的 数量 级 是 几 个 时 钟 周 期 。 

e 不 命中 处 罚 (miss penalty)。 由 于 不 命中 所 需要 的 额外 的 时 间 。L1l 不 命中 需要 从 L2 

得 到 服务 的 处 罚 ， 通 常 是 数 10 个 周期 ， 从 L3 得 到 服务 的 处 罚 ，50 个 周期 ;， 从 主 
存 得 到 的 服务 的 处 罚 ，200 个 周期 。 

优化 高 速 缓存 的 成 本 和 性 能 的 折 中 是 一 项 很 精细 的 工作 ， 它 需要 在 现实 的 基准 程序 代码 上 
进行 大 量 的 模拟 ， 因 此 超出 了 我 们 讨论 的 范围 。 不 过 ， 还 是 可 以 认识 一 些 定 性 的 折 中 考量 的 。 

1. 高 速 缓存 大 小 的 影响 

一 方面 ， 较 大 的 高 速 缓存 可 能 会 提高 命中 率 。 另 一 方面 ， 使 大 存储 器 运行 得 更 快 总 是 
要 难 一 些 的 。 结 果 ， 较 大 的 高 速 缓存 可 能 会 增加 命中 时 间 。 这 解释 了 为 什么 LI 高 速 缓存 
比 L2 高 速 缓存 小 ， 以 及 为 什么 L2 高 速 缓存 比 L3 高 速 缓存 小 。 

2. 块 大 小 的 影响 

大 的 块 有 利 有 弊 。 一 方面 ， 较 大 的 块 能 利用 程序 中 可 能 存在 的 空间 局 部 性 ， 帮 助 提高 
命中 率 。 不 过 ， 对 于 给 定 的 高 速 缓存 大 小 ， 块 越 大 就 意味 着 高 速 缓存 行 数 越 少 ， 这 会 损害 
时 间 局 部 性 比 空间 局 部 性 更 好 的 程序 中 的 命中 率 。 较 大 的 块 对 不 命中 处 罚 也 有 负面 影响 ， 
因为 块 越 大 ， 传 送 时 间 就 越 长 。 现 代 系 统 ( 如 Core i7) 会 折 中 使 高 速 缓存 块 包含 64 个 字 节 。 

3. 相 联 度 的 影响 

这 里 的 问题 是 参数 五 选择 的 影响 ,五 是 每 个 组 中 高 速 缓存 行 数 。 较 高 的 相 联 度 ( 也 就 
是 五 的 值 较 大 ) 的 优点 是 降低 了 高 速 缓存 由 于 冲突 不 命中 出 现 抖动 的 可 能 性 。 不 过 ， 较 高 
的 相 联 度 会 造成 较 高 的 成 本 。 较 高 的 相 联 度 实现 起 来 很 昂贵 ， 而 且 很 难 使 之 速度 变 快 。 每 
一 行 需 要 更 多 的 标记 位 ， 每 一 行 需要 额外 的 LRU 状态 位 和 额外 的 控制 逻辑 。 较 高 的 相 联 
度 会 增加 命中 时 间 ， 因 为 复杂 性 增加 了 ， 另 外 ， 还 会 增加 不 命中 处 罚 ， 因 为 选择 牺牲 行 的 
复杂 性 也 增加 了 。 

相 联 度 的 选择 最 终 变 成 了 命中 时 间 和 不 命中 处 罚 之 间 的 折 中 。 传 统 上 ， 努 力争 取 时 钟 
频率 的 高 性 能 系统 会 为 Ll 高 速 缓存 选择 较 低 的 相 联 度 (这 里 的 不 命中 处 罚 只 是 几 个 周期 )， 
。 而 在 不 命中 处 罚 比较 高 的 较 低 层 上 使 用 比较 小 的 相 联 度 。 例 如 ，Intel Core i7 系统 中 ，L1 
”和 1L2 高 速 缓存 是 8 路 组 相 联 的 ， 而 L3 高 速 缓 存 是 16 路 组 相 联 的 。 

4. 写 策略 的 影响 

直 写 高 速 缓存 比较 容易 实现 ， 而 且 能 使 用 独立 于 高 速 缓存 的 写 缓冲 区 (write buffer)， 
用 来 更 新 内 存 。 此 外 ， 读 不 命中 开销 没 这 么 大 ， 因 为 它们 不 会 触发 内 存 写 。 另 一 方面 ， 写 
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回 高 速 缓存 引起 的 传送 比较 少 ， 它 允许 更 多 的 到 内 存 的 带宽 用 于 执行 DMA 的 WO 设备 。 此 
外 ， 越 往 层次 结构 下 面 走 ， 传 送 时 间 增 加 ， 减 少 传送 的 数量 就 变 得 更 加 重要 。 一 般 而 言 ， 
高 速 缓存 越 往 下 层 ， 越 可 能 使 用 写 回 而 不 是 直 写 。 


高 速 缓存 行 、 组 和 块 有 什么 区 别 ? 


很 容易 混 消 高 速 缓存 行 、 组 和 块 之 间 的 区 别 。 让 我 们 来 回顾 一 下 这 些 概念 ， 确 保 概念 清晰 
@ 块 是 一 个 固定 大 小 的 信息 包 ， 在 高 速 缓存 和 主 存 (或 下 一 层 高 速 缓存 ) 之 间 来 回 传送 。 


行 是 高 速 缓存 中 的 一 个 容器 ， 存 储 块 以 及 其 他 信息 (例如 有 效 位 和 标记 位 )。 
组 是 一 个 或 多 个 行 的 集合 。 直 接 映 射 高 速 缓存 中 的 组 只 由 一 行 组 成 。 组 相 联 和 全 
相 联 高 速 缓存 中 的 组 是 由 多 个 行 组 成 的 。 
在 直接 映射 高 速 缓存 中 ， 组 和 行 实际 上 是 等 价 的 。 不 过 ， 在 相 联 高 速 缓存 中 ， 组 和 
行 是 很 不 一 样 的 ， 这 两 个 词 不 能 互 换 使 用 。 
因为 一 行 总 是 存储 一 个 块 ， 术 语 “ 行 ”和 “ 块 ”通常 互 换 使 用 。 例如， 系统 专家 总 
是 说 高 速 缓存 的 “ 行 大 小 ”>， 实 际 上 他 们 指 的 是 块 大 小 。 这 样 的 用 法 十 分 普遍 ， 只 要 你 
理解 块 和 行 之 间 的 区 别 ， 它 不 会 造成 任何 误会 。 


6.5 编写 高 速 缓存 友好 的 代码 

在 6.2 节 中 ， 我 们 介绍 了 局 部 性 的 思想 ， 而 且 定性 地 谈 了 一 下 什么 会 具有 良好 的 局 部 
性 。 明 白 了 高 速 缓存 存储 器 是 如 何 工 作 的 ， 我 们 就 能 更 加 准确 一 些 了 。 局 部 性 比较 好 的 程 
序 更 容易 有 较 低 的 不 命中 率 ， 而 不 命中 率 较 低 的 程序 往往 比 不 命中 率 较 高 的 程序 运行 得 更 
快 。 因 此 ， 从 具有 良好 局 部 性 的 意义 上 来 说 ， 好 的 程序 员 总 是 应 该 试 着 去 编写 高 速 缓存 友 
好 (cache friendly) 的 代码 。 下 面 就 是 我 们 用 来 确保 代码 高 速 缓存 友好 的 基本 方法 。 

1) 让 最 常见 的 情况 运行 得 快 。 程 序 通常 把 大 部 分 时 间 都 花 在 少量 的 核心 函数 上 ， 而 
这 些 函 数 通常 把 大 部 分 时 间 都 花 在 了 少量 循环 上 。 所 以 要 把 注意 力 集中 在 核心 函数 里 的 循 
环 上 ， 而 忽略 其 他 部 分 。 

2) 尽量 减 小 每 个 循环 内 部 的 缓存 不 命中 数量 。 在 其 他 条 件 ( 例 如 加 载 和 存储 的 总 次 
数 ) 相 同 的 情况 下 ， 不 命中 率 较 低 的 循环 运行 得 更 快 。 

为 了 看 看 实际 上 这 是 怎么 工作 的 ， 考 虑 6. 2 节 中 的 函数 sumvec: 


int sumvec(int v[N]) 


1 

2 

3 int i, sum = 0; 

4 

5 for (i = 0; i < N; i++) 
6 sum += v[i]; 

x return sum; 

8 } 


这 个 函数 高 速 缓存 友好 吗 ? 首先 ， 注 意 对 于 局 部 变量 i 和 sum， 循环 体 有 良好 的 时 间 局 部 
性 。 实 际 上 ， 因 为 它们 都 是 局 部 变量 ， 任 何 合理 的 优化 编译 器 都 会 把 它们 缓存 在 寄存 器 文 
件 中 ， 也 就 是 存储 器 层次 结构 的 最 高 层 中 。 现 在 考虑 一 下 对 向 量 v 的 步 长 为 1 的 引用 。 一 
般 而 言 ， 如 果 一 个 高 速 缓存 的 块 大 小 为 B 字 节 ， 那 么 一 个 步 长 为 & 的 引用 模式 (这 里 是 
以 字 为 单位 的 ) 平 均 每 次 循环 迭代 会 有 min(1，(wordsize Xk)/B) 次 缓存 不 命中 。 当 &=1 
时 ， 它 取 最 小 值 ， 所 以 对 v 的 步 长 为 1 的 引用 确实 是 高 速 缓 存 友 好 的 。 例 如 ， 假 设 v 是 块 
对 齐 的 ， 字 为 4 个 字 节 ， 高 速 缓存 块 为 4 个 字 ， 而 高 速 缓存 初始 为 空 ( 冷 高 速 缓存 ) 。 然 
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后 ， 无 论 是 什么 样 的 高 速 缓存 结构 ， 对 v 的 引用 都 会 得 到 下 面 的 命中 和 不 命中 模式 : 


沁 \E,] Ea i=4 i=5 二 人， 


i=0 i 
| 访问 顺序 ， 命 中 [或 不 命中 [ml ‖ 1tml | 2 四 | 3 四 | arm | sml | 由 | 7 中 | sg 四 


在 这 个 例子 中 ， 对 v[0] 的 引用 会 不 命中 ， 而 相应 的 包含 vV[0] ~~v[3] 的 块 会 被 从 内 存 
加 载 到 高 速 缓存 中 。 因 此 ， 接 下 来 三 个 引用 都 会 命中 。 对 v[4] 的 引用 会 导致 不 命中 ， 而 
一 个 新 的 块 被 加 载 到 高 速 缓存 中 ， 接 下 来 的 三 个 引用 都 命中 ， 依 此 类 推 。 总 的 来 说 ， 四 个 
引用 中 ， 三 个 会 命中 ， 在 这 种 冷 缓存 的 情况 下 ， 这 是 我 们 所 能 做 到 的 最 好 的 情况 了 。 
总 之 ， 简 单 的 sumvec 示例 说 明了 两 个 关于 编写 高 速 缓存 友好 的 代码 的 重要 问题 : 
e 对 局 部 变量 的 反复 引用 是 好 的 ， 因 为 编译 器 能 够 将 它们 缓存 在 寄存 器 文件 中 (时 间 
局 部 性 )。 
® 步 长 为 1 的 引用 模式 是 好 的 ， 因 为 存储 器 层次 结构 中 所 有 层次 上 的 缓存 都 是 将 数据 
存储 为 连续 的 块 (空间 局 部 性 )。 
在 对 多 维 数组 进行 操作 的 程序 中 ， 空 间 局 部 性 尤其 重要 。 例 如 ， 考 虑 6.2 节 中 的 
sumarrayrows 图 数 ， 它 按照 行 优先 顺序 对 一 个 二 维 数组 的 元 素 求 和 ， 
int sumarrayrows(int a[M] [N]) 


6 


int i, j, sum = 0; 











for (i = 0; i < M; i++) 
for (j = 0; j < N; j++) 
sum += a[i] [j]; 
return sum; 


} 

由 于 C 语言 以 行 优先 顺序 存储 数组 ， 所 以 这 个 函数 中 的 内 循环 有 与 sumvec 一 样 好 的 
步 长 为 1 的 访问 模式 。 例 如 ， 假 设 我 们 对 这 个 高 速 缓存 做 与 对 sumvec 一 样 的 假设 。 那 么 
对 数组 a 的 引用 会 得 到 下 面 的 命中 和 不 命中 模式 : 


MD om 和 whN 一 














al[lil[j] j=0 j=1 j=2 j=3 j=4 j=5 j=6 j=7 
i=0 lm | 2[h] | 3[h] | 4[h] | 5 {ml 7[h] | 8[h] 
i=1 9[m] | 10[h] | 11[h] | 12[h] | 13 [fm] 15 [h] | 16 [b] 
i=2 17[m] | 18[h] | 19[h] | 20[h] | 21 [ml] 23 [h] | 24 [h] 
i=3 25{[m] | 26[h] | 27[h] | 28[h] | 29 [m] 31[h] | 32 [b] 














交换 循环 的 次 序 ， 看 看 会 发 生 什么 : 





但 是 如 果 我 们 做 一 个 看 似 无 伤 大 雅 的 改变 


int sumarraycols(int a[M] [N]) 
4 


int ii j, sum = 0; 


for (j = 0; j < N; j++) 
for (i = 0; i < M; i++) 
sum += a[i] [j]; 
return sum; 


} 
在 这 种 情况 中 ， 我 们 是 一 列 一 列 而 不 是 一 行 一 行 地 扫描 数组 的 。 如 果 我 们 够 幸运 ， 整 个 数 
组 都 在 高 速 缓存 中 ， 那 么 我 们 也 会 有 相同 的 不 命中 率 1/4。 不 过 ， 如 果 数 组 比 高 速 缓存 要 
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j=1 j=2 j=3 j=7 











5 [mm 9 {ml] 13 [ml] 
6[m]l | 10[m] | 14 [m] 
7[ml | 11{m] | 15 [ml] 
8[m] | 12[m]l | 16 [ml] 


mm 











较 高 的 不 命中 率 对 运行 时 间 可 以 有 显著 的 影响 。 例 如 ， 在 桌面 机 器 上 ，sumarray- 
rows 运行 速度 比 sumarraycols 快 25 倍 。 总 之 ， 程 序 员 应 该 注意 他 们 程序 中 的 局 部 性 ， 
试 着 编写 利用 局 部 性 的 程序 。 

让 对 练习 题 6. 17 在 信号 处 理 和 科学 计算 的 应 用 中 ， 转 置 矩 阵 的 行 和 列 是 一 个 很 重要 的 
问题 。 从 局 部 性 的 角度 来 看 ， 它 也 很 有 趣 ， 因 为 它 的 引用 模式 既是 以 行为 主 (row- 
wise) 的 ， 也 是 以 列 为 主 (column-wise) 的 。 例 如 ， 考 虑 下 面 的 转 置 函数 

typedef int array[2] [2] ; 


1 

2 

3 void transposel(array dst, array src) 
4 所 

5 jn 1 

6 

六 for (1 = 0; i < 2; i++) { 

8 fer (i = OF J < 23 Tt+) 

9 dst[j] [i] = src[i] [j]; 

10 : 

11 } 

1 

假设 在 一 台 具 有 如 下 属性 的 机 器 上 运行 这 段 代 码 : 

@ sizeof (int)==4。 


@ src 数组 从 地 址 0 开始，dst 数组 从 地 址 16( 十 进 制 ) 开 始 。 

@ 只 有 一 个 Ll 数据 高 速 缓存 ， 它 是 直接 映射 的 、 直 写 和 写 分 配 的 ， 块 大 小 为 8 个 字 节 。 

@ 这 个 高 速 缓 存 总 的 大 小 为 16 个 数据 字 节 ， 一 开始 是 空 的 。 

@ 对 src 和 和 dst 数组 的 访问 分 别 是 读 和 写 不 命中 的 唯一 来 源 。 

A. 对 每 个 row 和 col， 指 明 对 src[row] [col] 和 dst[row] [col] 的 访问 是 命中 (h) 
还 是 不 命中 (m)。 例 如 ， 读 src[0] [0] 会 不 命中 ， 写 dst [0] [01 也 不 命中 。 





dst 数 组 src 数 组 
一 一 | | mi 
1 行 | 行 | | | 


B， 对 于 一 个 大 小 为 32 数据 字 节 的 高 速 缓存 重复 这 个 练习 。 

\ 练习 题 6. 18 最 近 一 个 很 成 功 的 游戏 SmAquarium 的 核心 就 是 一 个 紧密 循环 (tight 
loop)， 它 计算 256 个 海藻 (algae) 的 平均 位 置 。 在 一 合 具有 块 大 小 为 16 字 节 (B 一 16)、 束 
个 大 小 为 1024 字 节 的 直接 映射 数据 缓存 的 机 器 上 测量 它 的 高 速 缓存 性 能 。 定 义 如 下 ; 





1 struct algae_position 并 
2 int x; 

int y; 

看 
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3 
6 struct algae_position grid[16] [16] ; 
int total x = 0, total_y = 0; 
8 int i, j; 
还 有 如 下 假设 : 


@ sizeof (int)==4。 
e grid 从 内 存 地 址 0 开始。 
@ 这 个 高 速 缓存 开始 时 是 空 的 。 
@ 唯一 的 内 存 访问 是 对 数组 grid 的 元 素 的 访问 。 变 量 i、j、total x 和 total y 存 
放 在 寄存 器 中 。 
确定 下 面 代 码 的 高 速 缓存 性 能 : 


1 for (i = 0; i < 16; i++) { 

2 for (j = 0; j < 16; j++) { 

3 total_x += grid[i] [j] .x; 
4 } 

5 了 

6 

7 for (i = 0; i < 16; i++) { 

8 for (j = 0; j < 16; j++) { 

9 total_y += grid[i][j].y; 
10 } 


2 
二 


} 
A. 读 总 数 是 多 少 ? 
B. 缓存 不 命中 的 读 总 数 是 多 少 ? 
C. 不 命中 率 是 多 少 ? 
ji 练习 题 6. 19 给 定 练习 题 6. 18 的 假设 ， 确 定 下 列 代码 的 高 速 缓存 性 能 : 
for (i = 0; i < 16; i++){ 
for (jj = 0; 1 < 16s j++) { 
total_x += grid[j] [i] .x; 
total_y += grid[j] [i].y; 





-| 


} 
A. 读 总 数 是 多 少 ? 
B. 高 速 缓存 不 命中 的 读 总 数 是 多 少 ? 
C. 不 命中 率 是 多 少 ? 
D. 如 果 高 速 缓存 有 两 倍 大 ， 那 么 不 命中 率 会 是 多 少 呢 ? 
这 练习 题 6. 20 给 定 练习 题 6. 18 的 假设 ， 确 定 下 列 代 码 的 高 速 缓存 性 能 : 
for (i = 0; i < 16; i++){ 
6E Cj = 0 J < L168 j++4) A 
total_x += grid[i] [jj] .x; 
total y += gridlil[i] 7 
} 


Nm wmw NB 一 


} 
A. 读 总 数 是 多 少 ? 
B. 高 速 缓存 不 命中 的 读 总 数 是 多 少 ? 
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C. 不 命中 率 是 多 少 ? 
D. 如 果 高 速 缓存 有 两 们 大， 那么 不 命中 率 会 是 多 少 呢 ? 


6.6 综合 : 高 速 缓存 对 程序 性 能 的 影响 


本 节 通 过 研究 高 速 缓存 对 运行 在 实际 机 器 上 的 程序 的 性 能 影响 ， 综 合 了 我 们 对 存储 器 
层次 结构 的 讨论 。 


6.6.1 存储 器 山 


一 个 程序 从 存储 系统 中 读数 据 的 速率 称 为 读 知 吐 量 (read throughput)， 或 者 有 时 称 为 

读 带 宽 (read bandwidth) 。 如 果 一 个 程序 在 s 秒 的 时 间 段 内 读 n 个 字 节 ， 那 么 这 段 时 间 内 
的 读 吞 吐 量 就 等 于 n/s， 通 常 以 兆 字 节 每 秒 (MB/s) 为 单位 。 

如 果 我 们 要 编写 一 个 程序 ， 它 从 一 个 紧密 程序 循环 (tight program loop) 中 发 出 一 系列 读 

请 求 ， 那 么 测量 出 的 读 吞 吐 量 能 让 我 们 看 到 对 于 这 个 读 序列 来 说 的 存储 系统 的 性 能 。 图 6-40 


code/mem/mountain/mountain.c 





1 long data[MAXELEMS] ; /* The global array we'll be traversing */ 
2 

3 /* test - Iterate over first "elems" elements of array "data" with 

4 * stride of "stride", using 4 x 4 loop unrolling. 

5 */ 

6 int test(int elems, int stride) 

et 

8 long i, sx2 = stride*2, sx3 = stride*3, sx4 = stride*4; 

9 long acc0 = 0, accl = 0, acc2 = 0, acc3 = 0; 

10 long length = elems; 

Wy long limit = length - sx4; 

12 

8 /* Combine 4 elements at a time */ 

14 for (i = 0; i < limit; i += sx4) 1{ 

以 acc0 = acc0 + data[i]; 

16 accl = accl + data[i+stride] ; 

慨 acc2 = acc2 + data[i+sx2] ; 

18 acc3 = acc3 + data[i+sx3]; 

19 } 

20 

21 /* Finish any remaining elements */ 

22 for (; i < length; i+=stride) { 

23 acc0 = acc0 + data[i]; 

24 } 

25 return ((acc0 + accl) + (acc2 + acc3)); 

26 } 

27 

28 /* run - Run test(elems, stride) and return read throughput (MB/s) . 
29 * "size" is in bytes, "stride" is in array elements, and Mhz is 
30 * CPU clock frequency in Mhz. 

31 */ 

32 double run(int size, int stride, double Mhz) 

33 { 

34 double cycles; 

35 int elems = size / sizeof (double); 

36 

37 test(elems, stride); /* Warm up the cache */ 
38 cycles = fcyc2(test, elems, stride, 0); /* Call test(elems,stride) */ 
39 return (size / stride) / (cycles / Mhz); /* Convert cycles to MB/s */ 
40 } 





code/mem/mountain/mountain.c 


图 6-40 ”测量 和 计算 读 吞 吐 量 的 函数 。 我们 可 以 通过 以 不 同 的 size( 对 应 于 时 间 局 部 性 ) 和 
stride( 对 应 于 空间 局 部 性 ) 的 值 来 调用 run 函数 ， 产 生 某 台 计 算 机 的 存储 器 山 
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给 出 了 一 对 测量 某 个 读 序列 读 吞 吐 量 的 函数 。 

test 函数 通过 以 步 长 stride 扫描 一 个 数组 的 头 elems 个 元 素来 产生 读 序 列 。 为 了 
提高 内 循环 中 可 用 的 并 行 性 ,使 用 了 4X4 展开 ( 见 5.9 节 )。run 函数 是 一 个 包装 函数 ， 
调用 test 函数 ， 并 返回 测量 出 的 读 吞 吐 量 。 第 37 行 对 test 函数 的 调用 会 对 高 速 缓存 做 
暧 身 。 第 38 行 的 fcyc2 函数 以 参数 elems 调用 test 函数 ， 并 估计 test 函数 的 运行 时 
间 ， 以 CPU 周期 为 单位 。 注 意 ，run 函数 的 参数 size 是 以 字 节 为 单位 的 ， 而 test 函数 
对 应 的 参数 elems 是 以 数组 元 素 为 单位 的 。 另 外 ， 注 意 第 39 行将 MB/s 计算 为 10; 字 节 / 
秒 ， 而 不 是 22 字 节 / 秒 。 

run 函数 的 参数 size 和 stride 允许 我 们 控制 产生 出 的 读 序列 的 时 间 和 空间 局 部 性 
程度 。size 的 值 越 小 ， 得 到 的 工作 集 越 小 ， 因 此 时 间 局 部 性 越 好 。stride 的 值 越 小 ， 得 
到 的 空间 局 部 性 越 好 。 如 果 我 们 反复 以 不 同 的 size 和 stride 值 调 用 run 函数 ， 那 么 我 
们 就 能 得 到 一 个 读 带 宽 的 时 间 和 空间 局 部 性 的 二 维 函 数 ， 称 为 存储 器 山 (memory moun- 
tain)[112]。 

每 个 计算 机 都 有 表明 它 存储 器 系统 的 能 力 特 色 的 唯一 的 存储 器 山 。 例 如 ， 图 6-41 展 
示 了 Intel Core i7 系统 的 存储 器 山 。 在 这 个 例子 中 ，size 从 16KB 变 到 128KB，stride 
从 1 变 到 12 个 元 素 ， 每 个 元 素 是 一 个 8 个 字 节 的 long int。 


空间 局 部 性 
的 斜坡 






16 000 Core i7 Haswell 
们 2.1GHz 
全 ”32 KB LI 高速 缓存 
~ 12000 可 256 KB L2 高 速 缓存 
车 8MB L3 高 速 缓存 
有 10 000 炮 ”64B 块 大 小 
嘿 ”3000 坛 
让 6000 时 间 局 部 性 
入 4000 | 一 i 
2000 
0 





es E 512K 
s7 2M 
步 长 ( x8 字 节 ) s9 8M 大 小 ( 字 节 ) 
sl 32M 
128M 


图 6-41 存储 器 山 。 展 示 了 读 吞 吐 量 ， 它 是 时 间 和 空间 局 部 性 的 函数 


这 座 Core i7 山 的 地 形 地 势 展现 了 一 个 很 丰富 的 结构 。 垂 直 于 大 小 轴 的 是 四 条 山 养 ， 
分 别 对 应 于 工作 集 完全 在 Ll 高 速 缓存 、L2 高 速 缓存 、L3 高 速 缓存 和 主 存 内 的 时 间 局 部 
性 区 域 。 注 意 ，L1 山 峭 的 最 高 点 (那里 CPU 读 速 率 为 14GB/s) 与 主 存 山 券 的 最 低 点 (那里 
CPU 读 速 率 为 900MB/s) 之 间 的 差别 有 一 个 数量 级 。 

在 L2、L3 和 主 存 山 消 上 ， 随 着 步 长 的 增加 ， 有 一 个 空间 局 部 性 的 斜坡 ， 空 间 局 部 性 
下 降 。 注 意 ， 即 使 当 工 作 集 太 大 ， 不 能 全 都 装 进 任何 一 个 高 速 缓 存 时 ， 主 存 山 峭 的 最 高 点 
也 比 它 的 最 低 点 高 8 倍 。 因 此 ， 即 使 是 当 程 序 的 时 间 局 部 性 很 差 时 ， 空 间 局 部 性 仍然 能 补 
救 ， 并 且 是 非常 重要 的 。 
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有 一 条 特别 有 趣 的 平坦 的 山脊 线 ， 对 于 步 长 1 垂直 于 步 长 轴 ， 此 时 读 吞 吐 量 相对 保持 
不 变 ， 为 12GB/s， 即 使 工作 集 超出 了 L1 和 1L2 的 大 小 。 这 显然 是 由 于 Core i7 存储 器 系统 
中 的 硬件 预 取 (prefetching) 机 制 ， 它 会 自动 地 识别 顺序 的 、 步 长 为 1 的 引用 模式 ， 试 图 在 
一 些 块 被 访问 之 前 ， 将 它们 取 到 高 速 缓存 中 。 虽 然 文档 里 没有 记录 这 种 预 取 算法 的 细节 ， 
但 是 从 存储 器 山 可 以 明显 地 看 到 这 个 算法 对 小 步 长 效果 最 好 一 一 这 也 是 代码 中 要 使 用 步 长 
为 1 的 顺序 访问 的 另 一 个 理由 。 

如 果 我 们 从 这 座 山 中 取出 一 个 片段 ， 保 持 步 长 为 常数 ， 如 图 6-42 所 示 ， 我 们 就 能 很 
清楚 地 看 到 高 速 缓存 的 大 小 和 时 间 局 部 性 对 性 能 的 影响 了 。 大 小 最 大 为 32KB 的 工作 集 完 
全 能 放 进 Ll d-cache 中 ， 因 此 ， 读 都 是 由 L1 来 服务 的 ， 吞吐 量 保 持 在 峰值 12GB/s 处 。 
大 小 最 大 为 256KB 的 工作 集 完 全 能 放 进 统一 的 L2 高 速 缓存 中 ， 对 于 大 小 最 大 为 8 M, 工 
作 集 完全 能 放 进 统一 的 L3 高 速 缓存 中 。 更 大 的 工作 集 大 小 主要 由 主 存 来 服务 。 

L1 高 速 


Pp 主 存 区 域 L3 高 速 缓存 区 域 L2 高 速 缓存 区 域 “缓存 区 域 


12 000 


10 000 


读 吞 吐 量 ( MBAs ) 

















图 6-42 存储 器 山中 时 间 局 部 性 的 山脊 。 这 幅 图 展示 了 图 6-41 中 stride 一 8 时 的 一 个 片段 


L2 和 L3 高 速 缓存 区 域 最 左边 的 边缘 上 读 吞 吐 量 的 下 降 很 有 趣 ， 此 时 工作 集 大 小 为 
256KB 和 8MB， 等 于 对 应 的 高 速 缓存 的 大 小 。 为 什么 会 出 现 这 样 的 下 降 ， 还 不 是 完全 清 
楚 。 要 确认 的 唯一 方法 就 是 执行 一 个 详细 的 高 速 缓存 模拟 ,但 是 这 些 下 降 很 有 可 能 是 与 其 
他 数据 和 代码 行 的 冲突 造成 的 。 

以 相反 的 方向 横 切 这 座 山 ， 保 持 工 作 集 大 小 不 变 ， 我 们 从 中 能 看 到 空间 局 部 性 对 读 吞 吐 量 

影响 。 例 如 ， 图 6-43 展示 了 工作 集 大 小 固定 为 4MB 时 的 片段 。 这 个 片段 是 沿 着 图 6-41 中 的 
L3 山脊 切 的 ， 这 里 ， 工 作 集 完全 能 够 放 到 L3 高 速 缓存 中 ， 但 是 对 L2 高 速 缓存 来 说 太 大 了 。 

注意 随 着 步 长 从 1 个 字 增 长 到 8 个 字 ， 读 吞吐 量 是 如 何平 稳 地 下 降 的 。 在 山 的 这 个 区 
域 中 ，L2 中 的 读 不 命中 会 导致 一 个 块 从 L3 传送 到 L2。 后 面 在 L2 中 这 个 块 上 会 有 一 定数 
量 的 命中 ， 这 是 取决 于 步 长 的 。 随 着 步 长 的 增加 ，L2 不 命中 与 L2 命中 的 比值 也 增加 了 。 
因为 服务 不 命中 要 比 命中 更 慢 ， 所 以 读 吞 吐 量 也 下 降 了 。 一旦 步 长 达到 了 8 个 字 ， 在 这 个 
系统 上 就 等 于 块 的 大 小 64 个 字 节 了 ， 每 个 读 请 求 在 L2 中 都 会 不 命中 ， 必 须 从 L3 服务 。 
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因此 ， 对 于 至 少 为 8 个 字 的 步 长 来 说 ， 读 吞吐 量 是 一 个 常数 速率 ， 是 由 从 L3 传送 高 速 绥 
存 块 到 L2 的 速率 决定 的 。 





读 吞 吐 量 ( MB/s ) 


每 个 高 速 缓存 
行 一 次 访问 











sl S2 S3 S4 s5 s6 s7 S8 s9 sl0 sll 
步 长 ( x 8 字 节 ) 


图 6-43 ”一 个 空间 局 部 性 的 斜坡 。 这 幅 图 展示 了 图 6-41 中 大 小 二 4MB 时 的 一 个 片段 


总 结 一 下 我 们 对 存储 器 山 的 讨论 ， 存 储 器 系统 的 性 能 不 是 一 个 数字 就 能 描述 的 。 相 
反 ， 它 是 一 座 时 间 和 空间 局 部 性 的 山 ， 这 座 山 的 上 升 高 度 差 别 可 以 超过 一 个 数量 级 。 明 智 
的 程序 员 会 试图 构造 他 们 的 程序 ， 使 得 程序 运行 在 山峰 而 不 是 低谷 。 目 标 就 是 利用 时 间 局 
部 性 ， 使 得 频繁 使 用 的 字 从 LI 中 取出 ， 还 要 利用 空间 局 部 性 ， 使 得 尽 可 能 多 的 字 从 一 个 
Ll 高 速 缓存 行 中 访问 到 。 

BS 练习 题 6.21 利用 图 6-41 中 的 存储 器 山 来 估计 从 Ll d-cache 中 读 一 个 8 字 节 的 字 所 
需要 的 时 间 ( 以 CPU 周期 为 单位 ) 。 





6.6.2， 重新 排列 循环 以 提高 空间 局 部 性 
考虑 一 对 nXn 和 矩阵 相 乘 的 问题 : C=AB。 例 如 ， 如 果 n= 二 2， 那 么 


| wl | 
C21 C22 Qa21Q22 J Lb21 022 


cll =anbn 十 arzb2 


其 中 


C12 = Qnb 十 Qi12b22 
C21 = Qazib1 十 azzpo 
C22 = Qa21012 十 Q22 D2 
和 抢 阵 乘法 函数 通常 是 用 3 个 嵌 套 的 循环 来 实现 的 ， 分 别 用 索引 i、j; 和 来 标识 。 如 果 改 变 
循环 的 次 序 ， 对 代码 进行 一 些 其 他 的 小 改动 ， 我 们 就 能 得 到 矩阵 乘法 的 6 个 在 功能 上 等 价 
”的 版 本 ， 如 图 6-44 所 示 。 每 个 版 本 都 以 它 循环 的 顺序 来 唯一 地 标识 。 
在 高 层次 来 看 ， 这 6 个 版 本 是 非常 相似 的 。 如 果 加 法 是 可 结合 的 ， 那 么 每 个 版 本 计算 
出 的 结果 完全 一 样 9 。 每 个 版 本 总 共 都 执行 OC ) 个 操作 ， 而 加 法 和 乘法 的 数量 相同 。A 





日 ”正如 我 们 在 第 2 章 中 学 到 的 ， 浮 点 加 法 是 可 交换 的 ， 但 是 通常 是 不 可 结合 的 。 实 际 上 ， 如 果 和 矩阵 不 把 极 大 
的 数 和 极 小 的 数 混在 一 起 一 一 存储 物理 属性 的 矩阵 常常 这 样 ， 那 么 假设 浮 点 加 法 是 可 结合 的 也 是 合理 的 。 
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和 8B 的 n? 个 元 素 中 的 每 一 个 都 要 读 n 次 ; :计算 C 的 x 个 元 素 中 的 每 一 个 都 要 对 4 个 值 求 
和 。 不 过 ， 如 果 分 析 最 里 层 循环 迭代 的 行为 ， 我 们 发 现在 访问 数量 和 局 部 性 上 还 是 有 区 别 
的 。 为 了 分 析 ， 我 们 做 了 如 下 假设 : 
@ ee 个 double 类 型 的 nXn 的 数组 ， sizeof (aouble) 一 8。 
e 只 有 一 个 高 速 缓存 ， 其 块 大 小 为 32 字 节 (B= 二 32)。 : 
. 路 组 志 nn 很 大 ， 以 至 于 和 矩阵 的 一 行 都 不 能 完全 装 进 L1 高 速 缓存 中 。 
e 编译 器 将 局 部 变量 存储 到 寄存 器 中 ， 因此 循环 内 对 局 部 变量 的 引用 不 需要 任何 加 和 
或 存储 指令 。 
~ Code/mem/matmul/mm. c I code/mem/matmul/mm.c 
- for (j = 0; 和 j++) 











1 for (i= 0; 了 4) 用 尖 
2 for (j = 0; j“ ni j++) { 汪 for (i= 0; i <n; it+) { 
3 sum = 0， 0; : ， sum =: 0. 0 
4 for (k = 0; k < Di | : 4 ‘for (kKk = 0; k < n; k++) 
5 ‘ sum += A[i] [xk]*B[k] [j]; “<5. ‘sum += A[i] [k] *B[k] [j]; 
6 C[i][j] += sum; | = “Ii [jl] += sum; 
yd 于 区 于 
- i Code/mem/matmul/mm.c i code/mem/matmul/mm.c 
3) 误 版 本 本 
code/mem/matmailymm. SR 二 全 codemrenoraliulhoamn c 
1 “for’ 0; j < ai j++)” i wk ‘(k= 0; 企 生 kt) - "内 
2 for (kK.=0; k < n; k++) a 交 全 -tor 和 = 03 于 < Di + 
3 ‘TB[kK]{j]; .et 3 让 BB[kIE 这 这 这 莘 ;和 疾 
4 5 (i = 0; i < n; i++) 4 pd (i = 0;. > < Dn; es : 
5 Cri[j] += Ai][kxri 5 GD += ALi] [kJ]*#r; ~ 
code/mem/matmul/mm.c — dmeminanmulymmc 
c) j 上 版 本 d) ji 版 本 
cadefmeminatmlymns C ”一 clin a C 
1 for (k = 0; k <n; kt+t) or) 人 
2 for =0; i<n; ji EE 六 .for (k = 0;) K<Dni k++) { 
3 = Ar[i] [k] ; 通 一 = A[i] [k]; 
4 i 全 宇 0 之 3 4 for (j= 0; j <n; j++) ，， 
3 C[i] [j] += r*B[k] [j] ; 5 Cr[i] [j] += Ar[i] [kx]*r;" 和， 
6 } 六 i 
code/mem/matmul/mm.c C—O code/mem/matmul/mm.c 
e) 所 版 本 9 pe ry f》 坊 版 本 


eng Ee en ~ 地 标识 


图 6-45 总 结 了 我 们 对 内 循环 的 分 析 结 果 ， 注意 6 个 版 本 成 对 地 形成 了 3 个 等 从 关 用 
内 循环 和 访问 的 矩阵 对 来 表示 每 个 类 。 例如 版 本 ijk 和 :jik 是 类 :AB 的 成 员 。 因为 它们 
在 最 内 层 的 循环 中 引用 的 是 矩阵 A. 和 B( 而 不 是 C)。 :对 于 每 个 类 ， 我 们 统计 了 每 个 内 循环 
迭代 中 加 载 ( 读 ) 和 存储 ( 写 ) 的 数量 ,每 次 循环 迄 代 中 对 ;A，、 .B. 和 C 的 引用 在 高 速 缓存 中 不 
命中 的 数量 ， 以 及 每 次 挝 代 缓存 不 命中 的 总 数 ， x 
, 类 AB 例 程 的 内 循环 (图 6-44a 和 图 6 一 44b) 以 步 长 1 扫描 数组 A 的 一 二 和 , 因为 每 个 
速 缓存 块 保存 四 个 8 字 节 的 字 ， A 的 不 命中 率 是 每 次 迭代 不 命中 0. 25: 次 。 另 二 方面 ， 由 
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循环 以 步 长 .n 扫描 数组 B 的 一 列 。 WS. 本 人 ee 
次 和 迭代 总 共 会 有 1;25 次 不 命中 。 : 
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图 6-45 矩阵 乘法 内 循环 的 分 析 。6 个 版 本 分 为 3 个 等 价 类 ， 用 内 循环 中 访问 的 数组 对 来 表示 


类 AC 例 程 的 内 循环 (图 6-44c 利 图 6-44d) 有 = 此 问题 。 每 次 迭代 执行 两 个 加 载 和 一 个 

存储 (相对 于 类 AB 例 程 ， 它们 执行 2 个 加 载 而 没有 存储 )。 内 循环 以 步 长 扫描 入 和 C 的 
列 。 结果 是 每 次 加 载 都 会 不 命中 ， 所 以 每 次 选 代 总 共有 两 个 不 全 中 。 注意 ， -与 类 AB 例 各 
相 比 ， 交换 循环 降低 了 空 zs 间 局 部 性 。 
”BC 例 程 ( 图 6-44e 和 图 6-44f) 展 示 了 一 一 个 很 有 趣 的 折 中 ; 使 用 了 两 个 加 载 和 二 -个 存储 ， 
它们 比 AB 例 程 多 需要 一 个 内 存 操作 。 另 一 方面 ， 因为 内 循环 以 步 长 为 1 的 访问 模式 按 行 
扫描 B 和 0C， 每 次 送 代 每 个 数组 上 的 不 命中 率 只 4 有 0. 25 次 不 全 中 ， 所 以 每 次 选 代 总 共有 
0. 50 个 不 全 中 。 eo 

图 6-46 小 缩 了 一 个 Core i7 系统 上 矩阵 乘法 各 个 版 本 的 性 能 。 这 个 图 西 出 了 测量 出 的 
每 次 内 循环 适 代 所 需 的 CPU 周期 数 作为 数组 大 小 (n) 的 函数 : 


100 








50 100 150 200 250 300 350 400 450 500 550 600 650 700 . 4 四 
i es 数组 大 小 (n) i 堆 有 二 本 四 


图 6-46 Core i7 矩阵 乘法 性 能 


对 于 这 幅 图 有 很 多 有 意思 的 地 方 值得 注意 : 
。 对 于 大 的 值 ， 即使 每 个 版 本 都 执行 相同 数量 的 衣 点 算术 操作 ， 最 快 的 版 本 比 最 慢 

”的 版 本 运行 得 快 几乎 40 倍 。 站 

.。 每 次 类 代 内 存 引 用 和 不 命 中 数量 都 相同 的 一 对 版 本 ， 有 大 致 相同 的 测量 性 能 。_ 

、 内存 行为 最 糟糕 的 两 个 版 本 ， 就 每 次 选 代 的 访问 数量 和 不 命中 数量 而 言 ， 明 显 地 比 
”其 他 人 个 版 本 运行 得 慢 ， 其 他 4 个 版 本 有 殉 少 的 不 命中 次 数 或 者 较 少 的 访问 次 六 数 ， 
或 者 兼 而 有 之 。 

:二 在 这 个 情况 中 ,与 内 存 访问 总 数 相 比 ， 不 命中 率 是 一 一 个 更 好 的 性 能 预 i 测 指标 。 全 
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如 ， 即 使 类 BC 例 程 (2 个 加 载 和 1 个 存储 ) 在 内 循环 中 比 类 AB 例 程 (2 个 加 载 ) 执 行 
更 多 的 内 存 引 用 ， 类 BC 例 程 (每 次 迭代 有 0. 5 个 不 命中 ) 比 类 AB 例 程 ( 每 次 迭代 有 
1. 25 个 不 命中 ) 性 能 还 是 要 好 很 多 。 

@ 对 于 大 的 nn 值 ， 最 快 的 一 对 版 本 (kii 和 ikj) 的 性 能 保持 不 变 。 虽 然 这 个 数组 远大 于 
任何 SRAM 高 速 缓存 存储 器 ， 但 预 取 硬件 足够 聪明 ， 能 够 认 出 步 长 为 1 的 访问 模 
式 ， 而 且 速 度 足 够 快 能 够 跟 上 内 循环 中 的 内 存 访 问 。 这 是 设计 这 个 内 存 系统 的 Intel 
的 工程 师 所 做 的 一 项 极 好 成 就 ， 向 程序 员 提 供 了 甚至 更 多 的 鼓励 ， 鼓 励 他 们 开发 出 
具有 良好 空间 局 部 性 的 程序 。 


国术 EEC 中 ay 上 :IEeledlxei 使 用 分 块 来 提高 时 间 局 部 性 

有 一 项 很 有 趣 的 技术 ， 称 为 分 块 (blocking)， 它 可 以 提高 内 循环 的 时 间 局 部 性 。 分 
块 的 大 致 思想 是 将 一 个 程序 中 的 数据 结构 组 织 成 的 大 的 片 Cchunk)， 称 为 块 (block)。 
(在 这 个 上 下 文中 ,“ 块 ” 指 的 是 一 个 应 用 级 的 数据 组 块 ， 而 不 是 高 速 缓存 块 。) 这 样 构造 
程序 ， 使 得 能 够 将 一 个 片 加 载 到 Ll 高 速 缓存 中 ， 并 在 这 个 片 中 进行 所 需 的 所 有 的 读 和 
写 ， 然 后 丢掉 这 个 片 ， 加 载 下 一 个 片 ， 依 此 类 推 。 

与 为 提高 空间 局 部 性 所 做 的 简单 循环 变换 不 同 ， 分 块 使 得 代码 更 难 阅 读 和 理解 。 由 
于 这 个 原因 ， 它 最 适合 于 优化 编译 器 或 者 频繁 执行 的 库 函 数 。 由 于 Core i7 有 完善 的 预 
取 硬 件 ， 分 块 不 会 提高 矩阵 乘 在 Core i7 上 的 性 能 。 不 过 ， 学 习 和 理解 这 项 技术 还 是 很 有 
趣 的 ， 因 为 它 是 一 个 通用 的 概念 ， 可 以 在 一 些 没有 预 取 的 系统 上 获得 极 大 的 性 能 收益 。 


6. 6. 3 在 程序 中 利用 局 部 性 


正如 我 们 看 到 的 ， 存 储 系统 被 组 织 成 一 个 存储 设备 的 层次 结构 ， 较 小 、 较 快 的 设备 舍 
近 顶 部 ， 较 大 、 较 慢 的 设备 靠近 底部 。 由 于 采用 了 这 种 层次 结构 ， 程 序 访问 存储 位 置 的 实 
际 速率 不 是 一 个 数字 能 描述 的 。 相 反 ， 它 是 一 个 变化 很 大 的 程序 局 部 性 的 函数 (我 们 称 之 
为 存储 器 山 )， 变 化 可 以 有 几 个 数量 级 。 有 和 良好 局 部 性 的 程序 从 快速 的 高 速 缓存 存储 器 中 
访问 它 的 大 部 分 数据 。 局 部 性 差 的 程序 从 相对 慢 速 的 DRAM 主 存 中 访问 它 的 大 部 分 数据 ， 
理解 存储 器 层次 结构 本 质 的 程序 员 能 够 利用 这 些 知识 编写 出 更 有 效 的 程序 ， 无 论 具体 
的 存储 系统 结构 是 怎样 的 。 特 别 地 ， 我 们 推荐 下 列 技术 : 
e 将 你 的 注意 力 集中 在 内 循环 上 ， 大 部 分 计算 和 内 存 访问 都 发 生 在 这 里 。 
e 通过 按照 数据 对 象 存 储 在 内 存 中 的 顺序 、 以 步 长 为 1 的 来 读数 据 ， 从 而 使 得 你 程序 
中 的 空间 局 部 性 最 大 。 
e 一 旦 从 存 赃 器 中 读 和 人 了 一 个 数据 对 象 ， 就 尽 可 能 多 地 使 用 它 ， 从 而 使 得 程序 中 的 时 
间 局 部 性 最 大 。 


6.7 ,处 结 


基本 存储 技术 包括 随机 存储 器 (RAM)、 非 易 失 性 存储 器 (ROM) 和 磁盘 。RAM 有 两 种 基本 类 型 。 融 
态 RAM(SRAM) 快 一 些 , 但 是 也 贵 一 些 ,， 它 既 可 以 用 做 CPU 芯片 上 的 高 速 缓存 ， 也 可 以 用 做 芯片 下 的 
高 速 缓存 。 动 态 RAMCDRAM) 慢 一 点 ， 也 便宜 一 些 ， 用 做 主 存 和 图 形 帧 缓冲 区 。 即 使 是 在 关 电 的 时 候 ， 
ROM 也 能 保持 它们 的 信息 ， 可 以 用 来 存储 固件 。 旋 转 磁盘 是 机 械 的 非 易 失 性 存储 设备 ， 以 每 个 位 很 低 的 
成 本 保存 大 量 的 数据 ， 但 是 其 访问 时 间 比 DRAM 长 得 多 。 固 态 硬盘 (SSD) 基 于 非 易 失 性 的 闪存 ， 对 某 些 
应 用 来 说 ， 越 来 越 成 为 旋转 磁盘 的 具有 吸引 力 的 替代 产品 。 

一 般 而 言 ， 较 快 的 存储 技术 每 个 位 会 更 贵 ， 而 且 容 量 更 小 。 这 些 技术 的 价格 和 性 能 属性 正在 以 显著 
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不 同 的 速度 变化 着 。 特 别 地 ，DRAM 和 磁盘 访问 时 间 远 远大 于 CPU 周期 时 间 。 系 统 通过 将 存储 器 组 织 
成 存储 设备 的 层次 结构 来 弥补 这 些 差异 ， 在 这 个 层次 结构 中 ， 较 小 、 较 快 的 设备 在 顶部 ， 较 大 、 较 慢 的 
设备 在 底部 。 因 为 编写 良好 的 程序 有 好 的 局 部 性 ， 大 多 数 数据 都 可 以 从 较 高 层 得 到 服务 ， 结 果 就 是 存储 
系统 能 以 较 高 层 的 速度 运行 ， 但 却 有 较 低 层 的 成 本 和 容量 。 

程序 员 可 以 通过 编写 有 和 良好 空间 和 时 间 局 部 性 的 程序 来 显著 地 改进 程序 的 运行 时 间 。 利 用 基于 
SRAM 的 高 速 缓存 存储 器 特别 重要 。 主 要 从 高 速 缓存 取 数 据 的 程序 能 比 主 要 从 内 存 取 数 据 的 程序 运行 得 
快 得 多 。 
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家 庭 作 业 


#*6.22 假设 要 求 你 设计 一 个 每 条 磁道 位 数 固定 的 旋转 磁盘 。 你 知道 每 条 磁道 的 位 数 是 由 最 里 层 磁道 的 周 
长 决定 的 ， 可 以 假设 它 就 是 中 间 那 个 圆 洞 的 周 长 。 因 此 ， 如 果 你 把 磁盘 中 间 的 洞 做 得 大 一 点 ， 每 
条 磁道 的 位 数 就 会 增 大 ， 但 是 总 的 磁道 数 会 减少 。 如 果 用 -来 表示 盘面 的 半径 ，z. ~ 表示 圆 洞 的 
半径 ,那么 zz 取 什 么 值 能 使 这 个 磁盘 的 容量 最 大 ? 

“”*6.23 ”估计 访问 下 面 这 个 磁盘 上 肩 区 的 平均 时 间 ( 以 ms 为 单位 ): 






Es 
平均 扇 区 数 /磁道 800 















.上 6.24 假设 一 个 2MB 的 文件 ， 由 512 个 字 节 的 逻辑 块 组 成 ， 存 储 在 具有 下 述 特 性 的 磁盘 驱动 器 上 : 
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参数 : a 
旋转 速率 xs 二 15 000RPM SN 
Dn 3 证 4 ms 
平均 房 区 数 / 菩 首 T1000 
盘面 数 
扇 区 大 不 

“对 于 下 面 的 每 种 情况 ， 很 设 程序 顺序 地 读 文 件 的 逻辑 块 ， 一 个 接 二 人 不， 并 自 对 第 一 一 个 顽症 多 

读 / 写 头 的 时 间 等 于 Ts wa 十 Tow wowion 。 


A. 最 好 情况 : 估计 在 所 有 可 能 的 逻辑 块 到 磁盘 扇 区 的 映射 上 读 该 文件 所 需要 的 最 优 时 间 ( 以 ms 
为 单位 ) 。 


:BB; 随机 情况 : 估计 如 果 块 是 随机 映射 到 磁盘 扇 区 上 时 读 该 文件 所 需要 的 时 间 ( 以 :mis 为 单位 ji . 
* B25 


下 面 的 表 给 出 了 一 些 不 同 的 高 速 缓存 的 参数 。 对 于 每 个 高 速 缓存 ， 填 写 出 表 中 缺失 的 字段 。 记 住 
m 是 物理 地 址 的 位 数 ，C 是 高 速 缓存 大 小 (数据 字 节 数 )， 刀 是 以 字 节 为 单位 的 块 大 小 ,已 是 相 联 


，w 度 ,3 是 高 速 缓存 组 数 , 上 是 标记 位 数 ，*: 是 组 索引 位 数 ， 而 6 是 块 偏 移 位 数 。 全 天 和 六 


6.26 


* 6.27 


+ 61128.» 

















“下 面 的 表 给 出 了 一 一 些 不 同 的 高 速 缓存 的 参数 ， 你 的 任务 是 填写 出 表 中 扎 失 的 字段 。 记 住 才 是 到 
”地 址 的 位 数 ， C 是 高 速 绥 存 大 小 (数据 字 节 数 )，B 是 以 字 节 为 单位 的 废 大小， 是 相 联 度 ， 是 
” 速 缓存 组 数 ,，: 是 标记 位 数 ，* 是 组 索引 位 数 ， 而 5 是 块 偏 移 位 数 。 

















这 个 问题 是 关于 练习 题 6. 12 中 的 高 速 组 存 的 


A. 列 出 所 有 会 在 组 1 中 命中 的 十 六 进 制 内 存 地 址 。 
B. 列 出 所 有 会 在 组 6 中 命中 的 十 六 进 制 内 存 地 址 。 


0 6.12 中 的 高 速 缓存 的 。 


A. 列 出 所 有 会 在 组 2 中 命中 的 十 六 进 制 内 存 地址。  ，， 


有 列 出 所 有 会 在 组 4 中 命中 的 十 六 进 制 内 存 地 址 ， 


** 6. 29 


C. 列 出 所 有 会 在 组 5 中 命 中 的 十 六 进 制 内 存 地 址 。 

D. 列 出 所 有 会 在 组 7 中 命 中 的 十 六 进 制 内 存 地 址 。 .， 
假设 我 们 有 一 个 具有 如 下 属性 的 系统 ， 

e@ 内 存 是 字 节 寻 址 的 。 

。 内 存 访问 是 对 1 字 节 字 的 (而 不 是 4 字 节 字 )。 

e@ 地 址 宽 12 位 。 
@ 高 速 缓存 是 两 路 组 相 联 的 (下 一 pe ' 决 大 小 为 4 字 节 (B= 4); 用 4 个 组 (5 二 ji 六。 
高 速 缓 存 的 内 容 如 下 ;所 有 的 地 址 、 标 记 和 值 都 以 十 六 进 制 表 示 :* 下 











组 索引 标记 “有效 位 。 字 节 0 字 节 1 "学 节 2 全 宁 节 3 


1 40 41 1.42 43 
1 =- FE 97 CC DO 
TT a 44 4 46 47 
1 48 :49; .4A 4B 
9A CO0， 03 FF 











A 下面 的 图 给 出 了 一 个 地 址 的 格式 (每 个 小 框 表示 一 位 )。 指 出 用 来 确定 下 列 信息 的 字段 (在 图 中 


CO ”高 速 缓存 块 偏 移  . _. .. 
CI 商 训 给 存 组 宕 引 一 全 人 
CT ”高 速 缓存 标记 ” > ps 


入 


B. 对 于 下 面 每 个 内 存 访问 ， 当 它们 是 按照 列 出 来 的 顺序 执行 时 ， 指 出 是 高 速 缓存 命中 还 是 不 全 
中 。 如 果 可 以 从 高 速 缓存 中 的 信息 推断 出 来 ， 请 也 给 出 读 出 的 值 。 





*6.30 假设 我 们 有 一 个 具有 如 下 属性 的 系统 : 

@ 内 存 是 字 节 寻 址 的 。 

.9 内 存 访问 是 对 1 字 节 字 的 (而 不 是 4 字 节 

@ 地 址 宽 13 位 。 

。 高 这 级 存 是 四 路 组 相 江 的 CE 一 4)， Ne > 有 8 个 组 (S=8)。 
考虑 下 面 的 高 速 缓存 状态 。 所 有 的 地 址 、 标 记 和 值 都 以 十 六 进 制 表示 。 每 组 有 4 行 ， 索 引 列 
包含 组 索引 。 标 记 列 包 千 每 一 行 的 标记 值 ， 系列 包 会 每 一 一 行 的 有 效 位 。 字 节 0 一 3 列 包含 每 一 行 的 


wa 节 0 在 左边 。 


了 下 


昌 
ja 


”4 路 组 相 联 高 速 缓存 





0 
1 
2 
3 
4 
5 
6 
7 





标记 VV” 字 节 0 一 3 


POOoOPOoOPpPoOPp 
OpPopPPPOoOrpr 








个 高 速 缓存 的 大 小 (C) 是 多 少 字 节 ? 


B. 人 ee ne 指出 用 来 确定 下 列 信息 的 字段 (在 图 中 


标号 出 来 ) 


CO 


高 速 缓存 块 偏 移 ee 
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CI 高 速 缓存 组 索引 
CT 高 速 缓存 标记 





** 6. 31 假设 程序 使 用 作业 6. 30 中 的 高 速 缓存 ， 引 用 位 于 地 址 0x071A 处 的 1 字 节 字 。 用 十 六 进 制 表示 出 
它 所 访问 的 高 速 缓存 条 目 ， 以 及 返回 的 高 速 缓存 字 节 值 。 指 明 是 和 否 发 生 了 高 速 缓 存 不 命中 。 如 果 
有 高 速 缓存 不 命中 ， 对 于 “返回 的 高 速 缓存 字 节 ”输入 “一 ”。 提 示 : 注意 那些 有 效 位 ! 
A, 地 址 格式 (每 个 小 框 表示 一 位 ) : 
12 11 10 9 8 7 6 5 4 3 2 1 0 


B, 内 存 引 用 : 


高 速 缓存 块 偏 移 (CO) 0x 
高 速 缓 存 组 索引 (CI) 
i CD | oe | 
i | | 


** 6. 32 ”对 于 内 存 地 址 0x16E8 重复 作业 6. 31。 
A. 地 址 格式 (每 个 小 框 表示 一 位 ): 



























B. 内 存 引 用 : 


高 速 缓存 组 索引 (CI) 


高 速 缓 存 标记 〈CT) 











** 6. 33 对 于 作业 6. 30 中 的 高 速 缓存 ， 列 出 会 在 组 2 中 命中 的 8 个 内 存 地址 (以 十 六 进 制 表示 ) 。 
typedef int array[4] [4] ; 


1 

2 

3 void transpose2(array dst, array src) 
4 攻 

- int i, j; 

6 

4 for (i = 0; i < 4; i++) { 

8 for (j = 0; j < 4; j++) { 
9 dst[j] [i] = src[i] [j]; 
10 六 

11 } 

1 


假设 这 段 代 码 运 行 在 一 台 具 有 如 下 属性 的 机 器 上 : 


@ sizeof (int)==4。 


6; 35 


** 6. 36 


** 6. 37 
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@ 数组 src 从 地 址 0 开始 ， 而 数组 dst 从 地 址 64 开始 (十 进 制 )。 

@ 只 有 一 个 LI1 数据 高 速 缓存 ， 它 是 直接 映射 、 直 写 、 写 分 配 的 ， 块 大 小 为 16 字 节 。 

@ 这 个 高 速 缓存 总 共有 32 个 数据 字 节 ， 初 始 为 空 。 

@ 对 src 和 dst 数组 的 访问 分 别 是 读 和 写 不 命中 的 唯一 来 源 。 

对 于 每 个 row 和 col1， 指 明 对 src [row] [col] 和 dst [row] [col] 的 访问 是 命中 (h) 还 是 不 命中 (m)。 
例如 ， 读 src[0] [0] 会 不 命中 ， 而 写 dst [0] [0] 也 会 不 命中 。 





dst 数 组 src 数 组 
列 0 列 ! 列 2 列 3 列 0 列 ! 列 2 列 3 
行 0 行 0 
行 1 行 1 
行 2 行 2 
行 3 行 3 
对 于 一 个 总 大 小 为 128 数据 字 节 的 高 速 缓存 ， 重 复 练习 题 6. 34。 
dst 数 组 src 数 组 
列 0 列 1 列 2 列 3 列 0 列 1 列 2 列 3 
行 0 行 0 
行 1 行 1 
行 2 行 2 
行 3 行 3 


这 道 题 测试 你 预测 C 语言 代码 的 高 速 缓 存 行为 的 能 力 。 对 下 面 这 段 代码 进行 分 析 : 
int x[2] [128] ; 

int i; 

int sum = 0; 


for (i = 0; i < 128; i++) { 
sum += x[0] [i] * x[1] [i]; 


NmhwmwmnN 一 


小 
假设 我 们 在 下 列 条 件 下 执行 这 段 代 码 : 


® sizeof (int)= 
@ 数组 x 从 内 存 地 址 0x0 开始 ， 按 照 行 优先 顺序 存储 。 
@ 在 下 面 每 种 情况 中 ， 高 速 缓存 最 开始 时 都 是 空 的 。 
@ 唯一 的 内 存 访问 是 对 数组 x 的 条 目 进行 访问 。 其 他 所 有 的 变量 都 存储 在 寄存 器 中 。 
给 定 这 些 假设 ,估计 下 列 情况 中 的 不 命中 率 ; 
A. 情况 1: 假设 高 速 缓存 是 512 字 节 ， 直 接 映 射 ， 高 速 绥 存 块 大 小 为 16 字 节 。 不 命中 率 是 多 少 ? 
B. 情况 2: 如果 我 们 把 高 速 缓存 的 大 小 翻 倍 到 1024 字 节 ， 不 命中 率 是 多 少 ? 
C. 情况 3: 现在 假设 高 速 缓存 是 512 字 节 ， 两 路 组 相 联 ， 使 用 LRU 替换 策略 ， 高 速 缓存 块 大 小 为 
16 字 节 。 不 命中 率 是 多 少 ? 
D. 对 于 情况 3， 更 大 的 高 速 缓存 大 小 会 帮助 降低 不 命中 率 吗 ? 为 什么 能 或 者 为 什么 不 能 ? 
E. 对 于 情况 3， 更 大 的 块 大 小 会 帮助 降低 不 命中 率 吗 ? 为 什么 能 或 者 为 什么 不 能 ? 
这 道 题 也 是 测试 你 分 析 C 语言 代码 的 高 速 缓存 行为 的 能 力 。 假 设 我 们 在 下 列 条 件 下 执行 图 6-47 中 
的 3 个 求 和 函数 : 
@ sizeof (int)==4。 
@ 机 器 有 4KB 直接 映射 的 高 速 缓存 ， 块 大 小 为 16 字 节 
@ 在 两 个 循环 中 ， 代 码 只 对 数组 数据 进行 内 存 访问 。 循 环 索引 和 值 sum 都 存放 在 寄存 器 中 。 
@ 数组 a 从 内 存 地 址 0x08000000 处 开始 存储 。 
对 于 N=64 和 六 =60 两 种 情况 ， 在 表 中 填写 它们 大 概 的 高 速 缓存 不 命中 率 。 
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1 typedef int array_t[N] [N] ; 

3 

3 int sumA(array_t a) 

”一斑 

i i 

6 -int sum = 0; : 

着 for (i=0; i<N; de 

8 for '(j = 0; ji< Ns j++) { 

9 sum += a[i] [j]; 

10 } > 

11 return sum; 

2 

和 -: 

14 int. sumB(array_t a) 

入 二 

16 int 二， 二 分 

芭 int sum = 0; 

18 ‘for (j = 0; j < Ni j++) 
19. : for (= 9i i <.N; i++):{, 

2 sum += a[i] [j]; 

21 } 

22 return sum; 和 

23 } 

24 

25 int sumC(array_t a) 

2 

27 inb Bs 3; 

28 int sum = 0; ky 

29 for (j = 0; j < N; j+=2) 

30 for (i = 0; i < N; i+=2) { 和 
31 sum ++ (a[ij[j]. +:a[i+1] [j] . 产 
32 ari] [jt1], + ari+1] [j+1]); 

33 } 
34 0 return sum;: 区 





I 阁 6- 17 作业 6; 37 中 引用 的 函数 


*6; 38 3M 决定 在 白 纸 上 印 黄 方 格 ， 做 成 Post-It 小 贴纸 。 在 打印 过 程 中 ， 他 们 需要 设置 方 将 中 每 个 点 的 
CMYK( 蓝 色 ， 红 色 ， 黄 色 ， 黑 色 ) 值 。 3M 雇佣 你 判定 下 面 算法 在 一 个 具有 .2048 字 节 、 直接 映射 、 
块 大 小 为 32 字 节 的 数据 高 速 缓存 上 的 效率 。 有 如 下 定义 : 呈 


struct point_color { 


1 
4 int Ca 

3 int m; 

4 int y; 

5 int kes 标 
& 

: ” 
8 ‘ii:struct point_color square[16] [16];:: 入 
a i 和 六 


有 如 下 假设 : 
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® sizeof (int)==4。 

@ square 起 始 于 内 存 地 址 0。 

@ 高 速 缓存 初始 为 空 。 

e@ 唯一 的 内 存 访问 是 对 于 square 数组 中 的 元 素 。 变 量 i 和 存放 在 寄存 器 中 。 
确定 下 列 代码 的 高 速 缓 存 性 能 : 


1 for (i = 0; i < 16; i++){ 
2 for (j = 0 j e165 HH 4 
3 square[i][j].c = 0; 
4 square[i] [j] .m = 0; 
5 square[i] [j].y = 1; 
6 square[i] [j].k = 0; 
交 } 
:本 


po ee Wp 
A. 写 总 数 是 多 少 ? i A 人 
B. 在 高 速 缓存 中 不 命中 的 写 总 数 是 多 少 ? 
命中 率 是 多 少 ? 
,6.39 给 定 作业 6. 38 中 的 假设 ， 确 定 下 列 代码 的 高 速 缓存 性 能 : 


1 for (i = 0; i < 16; i++){ 
2 for (j = 0; j < 165 j++) { 
3 square[j][i].c = 0; 
4 square[j] [i] .m = 0; 
5 ‘i'sqiare[j][i]:y = 1; \ 
6 square[j] [i].k = 0; 
7 上 th * A 
8 } 
A. 写 总 数 是 多 少 ? a 
B. 在 高 速 缓存 中 不 命中 的 写 总 数 是 多 少 ? 
C. 不 命中 率 是 多 少 ? 
* 6. 40 给 定 作业 6. 38 中 的 假设 ， 机 定 下 列 代码 的 高 过 缓存 人 能 
入 计 鸭 : for (i'= 0; 请 si 计 +) he 
2 for (j = 0; 3 < ‘16 j++) { 
-ey i square[i][j].y. = 1; 时 
关 : i | 
2 ty 六 i 
6 1 ,fon ii:= 850314116; ,I4+) { : | 
for (j = 0; j < 16; je 
8 square[i][j].c = 0; 人 
9 square[i] [j] .m = 0; 
10 square[i] [j] .k = 0; 
11 有 
12 } 


A. 写 总 数 是 多 少 ? 
B 在 高 速 缓存 中 不 命中 的 写 总 数 是 多 少 ? 
i .C. 不 谷中 案 是 多 沙 汪 宝生 人 NY 
…6.41 你 正在 编写 一 个 新 的 3D 游戏 ， 希望 能 名 利 双 收 .现在 正 在 写 一 -个 函数 ， 使 得 在 画 下 一 帧 之 前 先 清 
” “ 空 屏幕 缓冲 区 。 工作 的 屏幕 是 640X 480 像素 数组 ， 工作 的 机 器 有 一 -个 64KB 直 接 映射 高 速 缓存 ， 
每 行业 个 字 节 ， 使 用 下 面 的 C 语 言 数据 结构 ， 


1 struct, pixel { 
“各 ha 
I Clart, 8; 
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** 6. 42 


** 6. 43 


** 6. 44 


** 6. 45 


** 6. 46 
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struct Pixel buffer[480] [640] ; 

jn Le 

char *cptr; 

int *iptr; 

有 如 下 假设 : 

@ sizeof (char)==1 和 sizecf (int)==4。 

@ buffer 起 始 于 内 存 地 址 0。 

e 高 速 缓存 初始 为 空 。 
@ 唯一 的 内 存 访问 是 对 于 buffer 数组 中 元 素 的 访问 。 变 量 i、j、cptr 和 iptr 存放 在 寄存 器 中 。 
下 面 代码 中 百 分 之 多 少 的 写 会 在 高 速 缓存 中 不 命中 ? 


二 


for (j = 0; j < 640; j++) { 
] ] 


1 

for (i = 0; i < 480; i++){ 

3 buffer[i] [j].r = 0; 

4 buffer[i] [j] .g = 0; 

5 buffer[i][j].b = 0; 

6 buffer[i][j].a = 0; 

7 上 

8 } 

给 定 作 业 6. 41 中 的 假设 ,， 下面 代 码 中 百 分 之 多少 的 写 会 在 高 速 缓存 中 不 命中 ? 


char *cptr = (char *) buffer; 
for (; cptr < (((char *) buffer) + 640 * 480 * 4); cptr++) 
*cptr = 0; 


给 定 作业 6. 41 中 的 假设 ， 下 面 代码 中 百 分 之 多 少 的 写 会 在 高 速 缓存 中 不 命中 ? 

1 int *iptr = (int *)buffer; 

2 for (; iptr < ((int *)buffer + 640*480); iptr++) 

3 *iptr = 0; 

从 CS:APP 的 网 站 上 下 载 mountain 程序 ， 在 你 最 喜欢 的 PC/Linux 系统 上 运行 它 。 根 据 结果 估计 
你 系统 上 的 高 速 缓存 的 大 小 。 

在 这 项 任务 中 ， 你 会 把 在 第 5 章 和 第 6 章 中 学 习 到 的 概念 应 用 到 一 个 内 存 使 用 频繁 的 代码 的 优化 
问题 上 。 考 虑 一 个 复制 并 转 置 一 个 类 型 为 int 的 NX N 矩阵 的 过 程 。 也 就 是 ， 对 于 源 矩 阵 S 和 目 
的 矩 阵 D， 我 们 要 将 每 个 元 素 sj; 复 制 到 dj,;。 只 用 一 个 简单 的 循环 就 能 实现 这 段 代码 : 


ww ID 


void transpose(int *dst, int *src, int dim) 


1 

区 光 

3 int 1 j; 

4 

5 for (i = 0; i < dim; i++) 

6 for (j = 0; j < dim; j++) 

2 dst[j*dim + i] = src[i*dim + j]; 
a 


这 里 ， 过 程 的 参数 是 指向 目的 矩阵 (dst) 和 源 矩 阵 (src) 的 指针 ， 以 及 和 矩阵 的 大 小 NC(dim)。 你 的 
工作 是 设计 一 个 运行 得 尽 可 能 快 的 转 置 隧 数 。 

这 是 练习 题 6. 45 的 一 个 有 趣 的 变 体 。 考 虑 将 一 个 有 向 图 g 转换 成 它 对 应 的 无 向 图 g'。 图 g' 有 一 条 
从 顶点 到 顶点 v 的 边 ， 当 且 仅 当 原 图 g 中 有 一 条 u 到 vv 或 者 v 到 w 的 边 。 图 g 是 由 如 下 的 它 的 
邻接 矩阵 (adjacency matrix)G 表示 的 。 如 果 N 是 g 中 顶点 的 数量 ， 那 么 G 是 一 个 NXN 的 矩阵 ， 
它 的 元 素 是 全 0 或 者 全 1。 假设 g 的 项 点 是 这 样 命名 的 : v。，v1 ，…，wvw-1。 那 么 如 果 有 一 条 从 
到 wj 的 边 ， 那 么 G[ 让 [jj 为 1， 否 则 为 0。 注 意 ， 邻 接 矩 阵 对 角 线 上 的 元 素 总 是 1， 而 无 向 图 的 邻 
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接 挎 阵 是 对 称 的 。 只 用 一 个 简单 的 循环 就 能 实现 这 段 代码 : 


void col_convert (int *G, int dim) { 


4 
总 int 1 J 

3 

4 for (i = 0; i < dim; i++) 

5 for (j = 0; j < dim; j++) 

6 G[lj*dim + i] = G[j*dim + i] || G[i*dim + j]; 
” 


你 的 工作 是 设计 一 个 运行 得 尽 可 能 快 的 函数 。 同 前 面 一 样 ， 要 提出 一 个 好 的 解答 ， 你 需要 应 
用 在 第 5 章 和 第 6 章 中 所 学 到 的 概念 。 


练习 题 答案 


6.1 这 里 的 思想 是 通过 使 纵横 比 max(r，c)/min(r，c) 最 小 ， 使 得 地 址 位 数 最 小 。 换 句 话 说， 数组 越 接 
近 于 正方 形 ， 地 址 位 数 越 少 。 








128X8 
512X4 
1024X4 








6.2 ”这 个 小 练习 的 主旨 是 确保 你 理解 柱 面 和 磁道 之 间 的 关系 。 一 旦 你 弄 明 白 了 这 个 关系 ， 那 问题 就 很 简 
单 了 : 
磁盘 容量 一 52 字 节 、 400 扁 区 数 x 10 000 磁道 数 x 2 表面 数 x 2 副 片 数 


遍 区 track 表面 盘 片 磁盘 
一 8 192 000 000 字 节 
一 8. 192GB 


6.3 对 这 个 问题 的 解答 是 对 磁盘 访问 时 间 公 式 的 直接 应 用 。 平 均 旋 转 时 间 ( 以 ms 为 单位 ) 为 
Tavg rotation = 1/2 X Tax rotation = 1/2 X (60s/15 000RPM) Xx 1000ms/s 2 2ms 
平均 传送 时 间 为 
Tvg transter 二 《60s/15 000RPM) X 1/500 扁 区 / 磁道 X 1000ms/s 0. 008ms 
总 的 来 说 ， 总 的 预计 访问 时 间 为 
aa 二 0 008ms 10ms 
6.4 这 道 题 很 好 的 检查 了 你 对 影响 磁盘 性 能 的 因素 的 理解 。 首 先 我 们 需要 确定 这 个 文件 和 磁盘 的 一 些 基 
”本 属性 。 这 个 文件 由 2000 个 512 字 节 的 逻辑 块 组 成 。 对 于 磁盘 ，Tvs soe 二 5ms， Tox sowiion 一 6ms， 
i Taotation = SS, 
A. 最 好 情况 : 在 好 的 情况 中 ， 块 被 映射 到 连续 的 扇 区 ， 在 同一 柱 面 上 ， 那 样 就 可 以 一 块 接 一 块 地 
读 ， 不 用 移动 读 / 写 头 。 一 旦 读 / 写 头 定 位 到 了 第 一 个 扇 区 ， 需 要 磁盘 转 两 整 圈 ( 每 圈 1000 个 扇 
区 ) 来 读 所 有 2000 个 块 。 所 以 ， 读 这 个 文件 的 总 时 间 为 Tvs scer 十 Taeruton 十 2XTnaxrouton 一 5 十 
3 十 12 王 20ms。 
B. 随机 的 情况 : 在 这 种 情况 中 ， 块 被 随机 地 映射 到 扇 区 上 ， 读 2000 块 中 的 每 一 块 都 需要 Te se 十 
Towerminmion Tn83y 所 以 读 这 个 文件 的 总 时 间 为 (Towwwas 十 了 wwwromion) X2000 二 16 000msC16 秒 1)。 
你 现在 可 以 看 到 为 什么 清理 磁盘 碎片 是 个 好 主意 ! 
6.5 这 是 一 个 简单 的 练习 ， 让 你 对 SSD 的 可 行 性 有 一 些 有 趣 的 了 解 。 回 想 一 下 对 于 磁盘 ，1PB 王 10? 
MB。 那 么 下 面 对 单 位 的 直接 翻译 得 到 了 下 面 的 每 种 情况 的 预测 时 间 : 
A. 最 糟糕 情况 顺序 写 (470MB/s): (10? X128)X(1/470)X (1/(86 400X365))<“8 年 。 
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B. 最 糟糕 情况 随机 写 (303MB/s): (10?3 X128)X (1/303)X(CIYC86400X365))A213: 年 。 全 

C. 平均 情况 (20GB/ 天 ): (10? X128)X(1/20 000) X Cl/365)s:17.535 年 :vs ，: 

所 以 即使 SSD 连续 工作 ， 也 能 持续 至 少 8 年 时 间 ， 这 大 于 大 多 数 计算 机 的 天 寿命。 

在 2005 年 到 2015 年 的 10 年间， 旋转 磁盘 的 单位 价格 下 降 了 大 约 166 倍 ， 这 意味 着 价格 大 约 每 18 
个 月 下 降 2 倍 。 假 设 这 个 趋势 一 直 持续 ，1PB 的 存储 设备 ， Ra 30 000 美元 ， 在 7 次 这 
种 2 倍 的 下 降 之 后 会 降 到 500 美元 以 下 。 因为 这 种 下 降 每 18 个 月 发 生 一 次 ， 我 们 可 以 预期 在 大 约 
2025 年 ， 可 以 用 500 美元 买 到 1PB 的 存储 设备 。 


为 了 创建 一 个 些 长 为 1 的 引用 模式 ， 必须 改变 循环 的 次 序 ， 使 得 最 有 边 的 家 引 变 化 得 最 快 。 


int sumarray3d(int a[N] [N] [N]) 


1 

区 

3 int i, j, k, sum = 0; 

人 i a 

3 ‘for (k = 0; k < Ni kt+) { 

6 for (i = 0; i < N; i++) { 

2 for (j= 0; j <N; j++) { 
:8 jE sum += a[k] [i] [j]; 

5 ee 
.10 a 

11 } 

12  ， return sum; 


3 二 
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这 是 一 个 很 重要 的 思想 。 要 保证 你 理解 了 为 什么 这 种 伯 丈 次 序 改变 就 能 得 到 一 个 步 长 为 1 的 访问 


解决 这 个 问题 的 关键 在 于 想象 记 数 组 是 如 何在 内 存 让 排列 的 ; 然后 分 析 引 用 模式 。 wad 


步 长 为 1 的 引用 模式 访问 数组 ， 因此 明显 地 具有 最 好 的 空间 局 部 性 。 函 数 clear2 依次 扫描 NN 个 
构 中 的 每 一 个 ， 这 是 好 的 ， 但 是 在 每 个 结构 中 ， 它 以 步 长 不 为 1 的 模式 跳 到 王 列 相对 于 结构 起 始 位 
置 的 偏 移 处 : 0、12、4、16、8、20。 所 以 clear2 的 空间 局 部 性 比 clearl 的 要 差 。 函 数 clear3 
不 仅 在 每 个 结构 中 跳 来 跳 去 ， 而 且 还 从 结构 跳 到 结构 ， 所 以 clear3 的 空间 局 部 性 比 clear2 和 
clearl 都 要 六 和 

这 个 解答 是 对 图 6-26 中 各 种 高 速 缓存 参数 定义 的 直接 应 用 。 不 那么 令 人 兴奋 ， 但是 在 能 实 正 理解 


高 速 缓存 如 何 工 作 之 前 ， 你 需要 理解 高 速 缓存 的 结构 是 如 何 导致 这 样 划分 地 址 位 的 。: ，…: 





























6. 10 填充 消除 了 冲突 不 命中 。 因此 ， 四 分 之 三 的 引用 是 命中 的 。 


Gs lal 


有 了 时候 ,理解 为 什么 某 种 思想 是 不 好 的 ， 能 够 帮助 你 理解 为 什么 另 一 一 种 是 好 的 。 :这 里 ， 我 们 看 到 

的 坏 的 想法 是 用 高 位 来 索引 高 速 缓存 ， 而 不 是 用 中 间 的 位 。 ‘ 

A. 用 高 位 做 索引 ， 每 个 连续 的 数组 片 (chunk) 由 2 个 块 组 成 这 里 4 是 标记 位 数 。 因此 ， 数组 头 
2 个 连续 的 块 都 会 映射 到 组 0， 接 下 来 的 2 个 块 会 映射 到 组 1， 依 此 类 推 。 : 


， 了 B. 对 于 直接 映射 高 速 缓存 (S,:E，B; :m) 二 (512，1,32, ;32)'; 高 速 缓存 容量 是 :512 个 ;32 字 节 的 


块 ; 每 个 高 速 缓存 行 中 有 :二 18 个 标记 位 。 因 此 ;: 数组 中 头 2* 个 块 会 映射 到 组 0， 接 下 来 2* 个 
块 会 映射 到 组 1。 因 为 我 们 的 数组 只 由 (4096X4)/32 二 512 个 块 组 成 ; 所 以 数组 中 所 有 的 块 都 

i 被 映射 到 组 0。 因 此 ;; 在 任何 时 刻 ,: 高 速 缓存 至 多 只 能 保存 二 个 数组 块 : 即 辣 数组 足够 小 ， 能 
够 完全 放 到 高 速 缓存 中 。 很 明显 ,; 用 高 位 做 索引 不 能 充分 利用 高 速 缓存 。 全 半 


6. 12 ”两 个 低位 是 块 偏 移 (CO) ,然后 是 3 位 的 组 索引 (CI)， 剩 下 的 位 作为 标记 (CT) :六 
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6.13 地址: 0x0E34 ee stp hei 
A. 地 址 格式 (每 个 小 格子 表示 一 个 位 ): ， 人 
ee 


nr ld TLilTilale 


wiCTCT: CT CT CT CT CT CT Cl Cl CI CO Co 
B. 内 存 引 用 : i 
i 








高 速 缓存 块 偏 移 (CO) 
。 | 高 速 缓存 组 索引 CD 
“”， “| 高速 缓存 标记 (CT) 
”| 高 速 缓 存 命中 ? 〈 是 / 否 ) :: 


高 速 缓存 返回 的 字 节 . 








6.14 地 址 ;: 0x0DD5 Un 
A. 地 址 格式 (每 个 小 格子 表示 一 个 位 ): 本 
1010 9 8 7 6-5- 4 -3 2 1 0 


[Tel Treesirl 


轩 闪 入 语 入 网 全 半 GTT :ET SCT eeCTeCTe CT ET OT "CT: YC" GL: "C0" C0 


J 


人 










值 


[| 人 | 
| 高速 绥 存 决 信 移 (C0) | ox | 
| 高速 才 组 家 引 (CD | 0x5 ，， 站 s 和 : 
ET 
5 二- 返 加 的 高 速 组 存 字 此 i 二 下 | asp 时兴 


i ’ 和 
志 示 






6. 15 地 址 : 0xlFF4 Fe 
A. 地 址 格式 (每 个 小 格子 表示 一 个 位 ): 

议 和 和 0 有 

ET | lw Ti 

省 六 CT CP ECTS ET: CE CTA:CT CT CE CL ‘CI; .CO CO# i 11 


“7B, 内 存 强 用 全 人 注重 全 各 全 入 分 注 计 信 ， 
| 
高 速 缓存 块 偏 移 (CO)， 
高 速 缓存 组 索引 《CD) 
、 二 ,| :高速 缓存 标记 (CT) ，-， : 
po 攻守 返回 的 高 速 细 存 字 节 :i 。: 1 
6.16 “这 个 向 题 是 练习 题 6. 12 一 练习 题 6. 15 的 一 种 小 过 程 ， 要 求 你 反 向 工作 ， 从 高 速 组 存 的 内 容 推出 
“” “会 在 某 个 组 中 命中 的 地 址 。 在 这 种 情况 中 ,给 3 包含 一 个 有 效 行 ， 标 记 为 0x32。 因 为 组 中 只 有 一 
个 有 效 行 ，4 个 地 址 会 命中 。 这 些 地 址 的 二 进 制 形式 为 0 0110 0100 11xx。 因此 ， 在 组 3 中 命中 的 
4 个 十 六 进 制 地 址 是 : 0x064C、0x064D、0x064E 和 0x064F。 
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A. 解决 这 个 问题 的 关键 是 想象 出 图 6-48 中 的 图 像 。 注 意 ， 每 个 高 速 缓存 行 只 包含 数组 的 一 个 行 ， 
高 速 缓 存 正 好 只 够 保存 一 个 数组 ， 而 且 对 于 所 有 的 i，src 和 dst 的 行 i 映射 到 同一 个 高 速 绥 
存 行 。 因 为 高 速 缓 存 不 够 大 ， 不 足以 主 存 


容纳 这 两 个 数组 ， 所 以 对 一 个 数组 的 0 高 速 缓存 
引用 总 是 驱逐 出 另 一 个 数组 的 有 用 的 se 行 0 
行 。 例 如 ， 对 dst [0] [0] 写 会 驱逐 当 我 dsc { 行 


们 读 src[0] [0] 时 加 载 进 来 的 那 一 行 。 
所 以 ， 当 我 们 接 下 来 读 src 10] [1] 时 ， pp 
会 有 一 个 不 命中 。 

B. 当 高 速 缓存 为 32 字 节 时 ， 它 足够 大 ， 能 容纳 这 两 个 数组 。 因 此 ， 所 有 的 不 命中 都 是 开始 时 的 
冷 不 命中 。 








dst 数 组 src 数 组 
列 0 列 1 列 0 列 1 
fmm] 4 到 
和 [an 行 1 
dst 数 组 src 数 组 
列 0 列 1 列 0 列 1 
FDCa Th 行 
和 [an fi1 Cm 


每 个 16 字 节 的 高 速 缓存 行 包 含 着 两 个 连续 的 algae_position 结构 。 每 个 循环 按照 内 存 顺序 访问 
这 些 结构 ， 每 次 读 一 个 整数 元 素 。 所 以 ， 每 个 循环 的 模式 就 是 不 命中 、 命 中 、 不 命中 、 命 中 ， 依 
此 类 推 。 注 意 ， 对 于 这 个 问题 ， 我 们 不 必 实 际 列举 出 读 和 不 命中 的 总 数 ， 就 能 预测 出 不 命中 率 。 
A. 读 总 数 是 多 少 ? 512 个 读 。 
B. 缓存 不 命中 的 读 总 数 是 多 少 ? 256 个 不 命中 。 
C. 不 命中 率 是 多 少 ? 256/512 王 50% 。 
对 这 个 问题 的 关键 是 注意 到 这 个 高 速 缓存 只 能 保存 数组 的 1/2。 所 以 ,按照 列 顺序 来 扫描 数组 的 
第 二 部 分 会 驱逐 扫描 第 一 部 分 时 加 载 进来 的 那些 行 。 例 如 ， 读 grid[8] [0] 的 第 一 个 元 素 会 驱逐 当 
我 们 读 grid[0] [0] 的 元 素 时 加 载 进来 的 那 一 行 。 这 一 行 也 包含 grid[0] [1]。 所 以 ， 当 我 们 开始 
扫描 下 一 列 时 ， 对 grid[0] [1] 第 一 个 元 素 的 引用 会 不 命中 。 
A. 读 总 数 是 多 少 ” 512 个 读 。 
B. 缓存 不 命中 的 读 总 数 是 多 少 ? 256 个 不 命中 。 
C. 不 命中 率 是 多 少 ? 256/512 二 50%。 
D. 如 果 高 速 缓存 有 两 倍 大 ， 那 么 不 命中 率 会 是 多 少 呢 ? 如 果 高 速 缓存 有 现在 的 两 倍 大 ， 那 么 它 能 
够 保存 整个 grid 数 组 。 所 有 的 不 命中 都 会 是 开始 时 的 冷 不 命中 ， 而 不 命中 率 会 是 1/4==25%，。 
这 个 循环 有 很 好 的 步 长 为 1 的 引用 模式 ， 因 此 所 有 的 不 命中 都 是 最 开始 时 的 冷 不 命中 。 
A. 读 总 数 是 多 少 ? 512 个 读 。 
B. 缓存 不 命中 的 读 总 数 是 多 少 ? 128 个 不 命中 。 
不 命中 率 是 多 少 ? 128/512 王 25%%。 
D. 如 果 高 速 缓存 有 两 倍 大 ， 那 么 不 命中 率 会 是 多 少 呢 ? 无 论 高 速 缓存 的 大 小 增加 多 少 ， 都 不 会 改 
变 不 命中 率 ， 因 为 冷 不 命中 是 不 可 避免 的 。 
从 L1 的 吞吐 量 峰值 是 大 约 12 000MB/s， 时 钟 频率 是 2100MHz， 而 每 次 读 访问 都 是 以 8 字 节 long 
类 型 为 单位 的 。 所 以 ， 从 这 张 图 中 我 们 可 以 估计 出 在 这 人 台 机 器 上 从 Ll 访问 一 个 字 需 要 大 约 2100/ 
12 000X8=1.4s1.5 周期 ， 比 正常 访问 L1 的 延迟 4 周期 快 大 约 2. 5 倍 。 这 是 由 于 4X4 的 循环 展 
开 得 到 的 并 行 允 许 同时 进行 多 个 加 载 操作 。 


第 二 部 分 


在 系统 上 运行 程序 


继续 我 们 对 计算 机 系统 的 探索 ， 进 一 步 来 看 看 构建 和 运行 应 
用 程序 的 系统 软件 。 链 接 器 把 程序 的 各 个 部 分 联合 成 一 个 文件 ， 
处 理 器 可 以 将 这 个 文件 加 载 到 内 存 ， 并 且 执 行 它 。 现 代 操 作 系 统 
与 硬件 合作 ， 为 每 个 程序 提供 一 种 幻象 ， 好 像 这 个 程序 是 在 独占 
地 使 用 处 理 器 和 主 存 ， 而 实际 上 ， 在 任何 时 刻 ， 系 统 上 都 有 多 个 
程序 在 运行 。 

在 本 书 的 第 一 部 分 ， 你 很 好 地 理解 了 程序 和 硬件 之 间 的 交互 
关系 。 本 书 的 第 二 部 分 将 拓宽 你 对 系统 的 了 解 ， 使 你 牢固 地 掌握 
程序 和 操作 系统 之 间 的 交互 关系 。 你 将 学 习 到 如 何 使 用 操作 系统 
提供 的 服务 来 构建 系统 级 程序 , 例如 Unix shell 和 动态 内 存 分 
配 包 。 





链接 (linking) 是 将 各 种 代码 和 数据 片段 收集 并 组 合成 为 一 个 单一 文件 的 过 程 ， 这 个 文 
件 可 被 加 载 (复制 ) 到 内 存 并 执行 。 链 接 可 以 执行 于 编译 时 (compile time)， 也 就 是 在 源 代 
码 被 翻译 成 机 器 代码 时 ; 也 可 以 执行 于 加 载 时 (load time)， 也 就 是 在 程序 被 加 载 器 (load- 
er) 加 载 到 内 存 并 执行 时 ; 甚至 执行 于 运行 时 (run time) ， 也 就 是 由 应 用 程序 来 执行 。 在 早 
期 的 计算 机 系统 中 ， 链接 是 手动 执行 的 。 在 现代 系统 中 ， 链 接 是 由 叫做 链接 器 (linker) 的 
程序 自动 执行 的 。 

链接 器 在 软件 开发 中 扮演 着 一 个 关键 的 角色 ， 因 为 它们 使 得 分 离 编 译 (separate com- 
pilation) 成 为 可 能 。 我 们 不 用 将 一 个 大 型 的 应 用 程序 组 织 为 一 个 巨大 的 源 文件 ， 而 是 可 以 
把 它 分 解 为 更 小 、 更 好 管理 的 模块 ， 可 以 独立 地 修改 和 编译 这 些 模块 。 当 我 们 改变 这 些 模 
块 中 的 一 个 时 ， 只 需 简单 地 重新 编译 它 ， 并 重新 链接 应 用 ， 而 不 必 重 新 编译 其 他 文件 。 

链接 通常 是 由 链接 器 来 默默 地 处 理 的 ， 对 于 那些 在 编程 人 门 课堂 上 构造 小 程序 的 学 生 
而 言 ， 链 接 不 是 一 个 重要 的 议题 。 那 为 什么 还 要 这 么 麻烦 地 学 习 关 于 链接 的 知识 呢 ? 

@ 理解 链接 器 将 帮助 你 构造 大 型 程序 。 构 造 大 型 程序 的 程序 员 经 常会 遇 到 由 于 缺少 模 
块 、 缺 少 库 或 者 不 兼容 的 库 版 本 引起 的 链接 器 错误 。 除 非 你 理解 链接 器 是 如 何 解析 
引用 、 什 么 是 库 以 及 链接 器 是 如 何 使 用 库 来 解析 引用 的 ， 否 则 这 类 错误 将 令 你 感到 
迷惑 和 挫败 。 

@ 理解 链接 器 将 帮助 你 避免 一 些 危 险 的 编程 错误 。Linux 链接 器 解析 符号 引用 时 所 做 
的 决定 可 以 不 动 声色 地 影响 你 程序 的 正确 性 。 在 默认 情况 下 ， 错 误 地 定义 多 个 全 局 
变量 的 程序 将 通过 链接 器 ， 而 不 产生 任何 警告 信息 。 由 此 得 到 的 程序 会 产生 令 人 迷 
惑 的 运行 时 行为 ， 而 且 非 常 难以 调试 。 我 们 将 向 你 展示 这 是 如 何 发 生 的 ， 以 及 该 如 
何 避 免 它 。 

@ 理解 链接 将 帮助 你 理解 语言 的 作用 域 规则 是 如 何 实 现 的 。 例 如 ， 全 局 和 局 部 变量 之 
间 的 区 别 是 什么 ” 当 你 定义 一 个 具有 static 属性 的 变量 或 者 函数 时 ， 实 际 到 底 意 
味 着 什么 ? 

@ 理解 链接 将 帮助 你 理解 其 他 重要 的 系统 概念 。 链 接 器 产生 的 可 执行 目标 文件 在 重要 的 系 
统 功能 中 扮演 着 关键 角色 ， 比 如 加 载 和 运行 程序 、 虚 拟 内 存 、 分 页 、 内 存 映射 。 ， 

@ 理解 链接 将 使 你 能 够 利用 共享 库 。 多 年 以 来 ， 链 接 都 被 认为 是 相当 简单 和 无 趣 的 。 
然而 ， 随 着 共享 库 和 动态 链接 在 现代 操作 系统 中 重要 性 的 日 益 加 强 ， 链 接 成 为 一 个 
复杂 的 过 程 ， 为 掌握 它 的 程序 员 提供 了 强大 的 能 力 。 比 如 ， 许 多 软件 产品 在 运行 时 
使 用 共享 库 来 升级 压缩 包装 的 (shrink-wrapped) 二 进 制 程序 。 还 有 ， 大 多 数 Web 服 
务 器 都 依赖 于 共享 库 的 动态 链接 来 提供 动态 内 容 。 

这 一 章 提 供 了 关于 链接 各 方面 的 全 面 讨论 ， 从 传统 静态 链接 到 加 载 时 的 共享 库 的 动态 链 
接 ， 以 及 到 运行 时 的 共享 库 的 动态 链接 。 我 们 将 使 用 实际 示例 来 描述 基本 的 机 制 ， 而 且 指 出 
链接 问题 在 哪些 情况 中 会 影响 程序 的 性 能 和 正确 性 。 为 了 使 描述 具体 和 便于 理解 ， 我 们 的 讨 
论 是 基于 这 样 的 环境 : 一 个 运行 Linux 的 x86-64 系统 ， 使 用 标准 的 ELF-64( 此 后 称 为 ELF) 
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目标 文件 格式 。 不 过 ， 无 论 是 什么 样 的 操作 系统 、ISA 或 者 目标 文件 格式 ， 基 本 的 链接 概念 
是 通用 的 ， 认 识 到 这 一 点 是 很 重要 的 。 细 节 可 能 不 尽 相 同 ， 但 是 概念 是 相同 的 。 


7.1 编译 器 驱动 程序 
考虑 图 7-1 中 的 C 语言 程序 。 它 将 作为 贯穿 本 章 的 一 个 小 的 运行 示例 ， 帮 助 我 们 说 明 
关于 链接 是 如 何 工作 的 一 些 重 要 知识 点 。 
code/link/main.c 一 code/link/sum.c 


int sum(int *a, int n); int sum(int *a, int n) 


1 1 
”i 
3 int array[2] = {1, 2}; 3 int 1, gS= 0: 
4 4 
5 int main() 5 for (i=0; i<n; i++) { 
6 6 s += a[i]; 
7 int val = sum(array, 2); } 
8 return val; 8 return s; 
9 } 
code/link/main.c —————— gdm ee 
a) main.c b) sum.c 


图 7-1 示例 程序 1。 这 个 示例 程序 由 两 个 源 文件 组 成 ，main.c 和 sum.c。main 函数 初始 化 一 个 整数 
数组 ， 然 后 调用 sum 函数 来 对 数组 元 素 求 和 


大 多 数 编译 系统 提供 编译 器 驱动 程序 (compiler driver)， 它 代表 用 户 在 需要 时 调用 语 





言 预 处 理 器 、 编 译 器 、 汇 编 器 和 链接 器 。 main.c sum.c ” 源 文件 
比如 ， 要 用 GNU 编译 系统 构造 示例 程序 ， 
我 们 就 要 通过 在 shell 中 输入 下 列 命 令 来 调 翻译 器 
(cBp, cel, as) 
用 GCC 驱动 程序 : 
linux> gcc -0g -o prog main.c sum.c main.o sum.o 可 重 定位 目标 文件 


图 7-2 概括 了 驱动 程序 在 将 示例 程序 从 
ASCII 码 源 文件 翻译 成 可 执行 目标 文件 时 


的 行为 。( 如 果 你 想 看 看 这 些 步 又 ， 用 -v 选 prog ”完全 链接 的 


| 村 ee 可 执行 目标 文件 
项 来 运行 GCC。) 驱 动 程序 首先 运行 C 预 处 加 
y 二 2 定位 水 
理 器 (cpp) 9S ， 它 将 C 的 源 程序 main.c 翻 图 7-2 静态 链接 。 链 接 器 将 可 重 定 位 目标 文件 组 合 


、 的 起 来 ， 形 成 一 个 可 执行 目标 文 { 
译 成 一 个 ASCII 码 的 中 间 文件 main .il Wh did 

cpp [other arguments] main.c /tmp/main.i 

接 下 来 ， 驱 动 程序 运行 C 编译 器 (cc1)， 它 将 main.i 翻译 成 一 个 ASCII 汇编 语言 
件 main.s: 

ccl /tmp/main.i -0g [other arguments] -o /tmp/main.s 
然后 ， 驱 动 程序 运行 汇编 器 (as)， 它 将 main.s 翻译 成 一 个 可 重 定 位 目标 文件 (relo- 
~ eatable object file)main .ol 


as [other arguments] -o /tmp/main.o /tmp/main.s 


加 在 某 些 GCC 版 本 中 ， 预 处 理 器 被 集成 到 编译 器 驱动 程序 中 。 
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驱动 程序 经 过 相同 的 过 程 生 成 sum.o。 最 后 ， 它 运行 链接 器 程序 1d, 将 main.o 和 
sum.o 以 及 一 些 必要 的 系统 目标 文件 组 合 起 来 ， 创 建 一 个 可 执行 目标 文件 (executable ob- 
ject file)prog: 


ld -o prog [system object files and args] /tmp/main.o /tmp/sum.o 
要 运行 可 执行 文件 prog， 我 们 在 Linux shell 的 命令 行 上 输入 它 的 名 字 : 
linux> ./prog 


shell 调用 操作 系统 中 一 个 叫做 加 载 器 (loader) 的 函数 ， 它 将 可 执行 文件 prog 中 的 代 
码 和 数据 复制 到 内 存 ， 然 后 将 控制 转移 到 这 个 程序 的 开头 。 


7.2 静态 链接 
像 Linux LD 程序 这 样 的 静态 链接 器 (static linker) 以 一 组 可 重 定位 目标 文件 和 命令 行 
参数 作为 输入 ， 生 成 一 个 完全 链接 的 、 可 以 加 载 和 运行 的 可 执行 目标 文件 作为 输出 。 输 入 
的 可 重 定位 目标 文件 由 各 种 不 同 的 代码 和 数据 节 (section) 组 成 ， 每 一 节 都 是 一 个 连续 的 字 
节 序 列 。 指 令 在 一 节 中 ， 初始化 了 的 全 局 变量 在 另 一 节 中 ， 而 未 初始 化 的 变量 又 在 另外 一 
节 中 。 . 
为 了 构造 可 执行 文件 ， 链 接 器 必须 完成 两 个 主要 任务 : 
@ 符号 解析 (symbol resolution) 。 目 标 文件 定义 和 引用 符号 ， 每 个 符号 对 应 于 一 个 函 
数 、 一 个 全 局 变量 或 一 个 静态 变量 ( 即 C 语言 中 任何 以 static 属性 声明 的 变量 )。 
符号 解析 的 目的 是 将 每 个 符号 引用 正好 和 一 个 符号 定义 关联 起 来 。 
e 重 定位 (relocation) 。 编 译 器 和 汇编 器 生成 从 地 址 0 开始 的 代码 和 数据 节 。 链 接 器 通 
过 把 每 个 符号 定义 与 一 个 内 存 位 置 关联 起 来 ， 从 而 重 定位 这 些 节 ， 然 后 修改 所 有 对 
这 些 符 号 的 引用 ， 使 得 它们 指向 这 个 内 存 位 置 。 链 接 器 使 用 汇编 器 产生 的 重 定位 条 
目 (relocation entry) 的 详细 指令 ， 不 加 甄别 地 执行 这 样 的 重 定位 。 
接 下 来 的 章节 将 更 加 详细 地 描述 这 些 任务 。 在 你 阅读 的 时 候 ， 要 记 住 关于 链接 器 的 一 
些 基本 事实 目标 文件 纯粹 是 字 节 块 的 集合 。 这 些 块 中 ， 有 些 包 含 程序 代码 ， 有 些 包 含 程 
序数 据 ， 而 其 他 的 则 包含 引导 链接 器 和 加 载 器 的 数据 结构 。 链 接 器 将 这 些 块 连接 起 来 ， 确 
定 被 连接 块 的 运行 时 位 置 ， 并 且 修 改 代码 和 数据 块 中 的 各 种 位 置 。 链 接 器 对 目标 机 器 了 解 
甚 少 。 产 生 目 标 文件 的 编译 器 和 汇编 器 已 经 完成 了 大 部 分 工作 。 


7.3 目标 文件 
目标 文件 有 三 种 形式 : 
@ 可 重 定位 目标 文件 。 包 含 二 进 制 代 码 和 数据 ， 其 形式 可 以 在 编译 时 与 其 他 可 重 定位 
目标 文件 合并 起 来 ， 创 建 一 个 可 执行 目标 文件 。 
@ 可 执行 目标 文件 。 包 含 二 进 制 代 码 和 数据 ， 其 形式 可 以 被 直接 复制 到 内 存 并 执行 。 
@ 共享 目标 文件 。 一 种 特殊 类 型 的 可 重 定位 目标 文件 ， 可 以 在 加 载 或 者 运行 时 被 动态 
地 加 载 进 内 存 并 链接 。 
编译 器 和 汇编 器 生成 可 重 定位 目标 文件 (包括 共享 目标 文件 )。 链 接 器 生成 可 执行 目标 文 
件 。 从 技术 上 来 说 ， 一 个 目标 模块 (object module) 就 是 一 个 字 节 序列 ， 而 一 个 目标 文件 (ob- 
ject file) 就 是 一 个 以 文件 形式 存放 在 磁盘 中 的 目标 模块 。 不 过 ， 我 们 会 互 换 地 使 用 这 些 术语 。 
目标 文件 是 按照 特定 的 目标 文件 格式 来 组 织 的 ， 各 个 系统 的 目标 文件 格式 都 不 相同 。 
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从 贝尔 实验 室 诞生 的 第 一 个 Unix 系统 使 用 的 是 a.out 格式 (直到 今天 ， 可 执行 文件 仍然 
称 为 a.out 文件 )。Windows 使 用 可 移植 可 执行 (Portable Executable，PE) 格 式 。Mac 
OS-X 使 用 Mach-O 格式。 现代 x86-64 Linux 和 Unix 系统 使 用 可 执行 可 链接 格式 (Execut- 
able and Linkable Format，ELF) 。 尽 管 我 们 的 讨论 集中 在 ELF 上, 但 是 不 管 是 哪 种 格式 ， 
基本 的 概念 是 相似 的 。 


7.4 可 重 定位 目标 文件 


图 7-3 展示 了 一 个 典型 的 ELF 可 重 定位 目标 文件 的 格式 。ELF 头 (ELF header) 以 一 
个 16 字 节 的 序列 开始 ， 这 个 序列 描述 了 生成 该 文件 , 
的 系统 的 字 的 大 小 和 字 节 顺序 。ELF 头 剩 下 的 部 分 
包含 帮助 链接 器 语法 分 析 和 解释 目标 文件 的 信息 。 其 


中 包括 ELF 头 的 大 小 、 目 标 文 件 的 类 型 (如 可 重 定 
位 、 可 执行 或 者 共享 的 )、 机 器 类 型 (如 x86-64)、 节 


.bss 
头 部 表 (section header table) 的 文件 偏 移 ， 以 及 节 头 















部 表 中 条 目的 大 小 和 数量 。 不 同 节 的 位 置 和 大 小 是 由 由 










节 头 部 表 描述 的 ， 其 中 目标 文件 中 每 个 节 都 有 一 个 固 
定 大 小 的 条 目 (entry) 。 
夹 在 ELF 头 和 节 头 部 表 之 间 的 都 是 节 。 一 个 典 
型 的 ELF 可 重 定位 目标 文件 包含 下 面 几 个 节 ， a 
.text 已 编译 程序 的 机 器 代码 。 文人 的 节 


.rodata: 只 读数 据 ， 比 如 printf 语句 中 的 格 图 7-3 典型 的 ELF 可 重 定位 目标 文件 
式 串 和 开关 语句 的 跳 转 表 。 

.data: 已 初始 化 的 全 局 和 静态 C 变量 。 局 部 C 变量 在 运行 时 被 保存 在 栈 中 ， 既 不 出 
现在 .data 节 中 ， 也 不 出 现在 .bss 节 中 。 

:bss: 未 初始 化 的 全 局 和 静态 C 变量 ， 以 及 所 有 被 初始 化 为 0 的 全 局 或 静态 变量 。 在 
目标 文件 中 这 个 节 不 占据 实际 的 空间 ， 它 仅仅 是 一 个 占 位 符 。 目 标 文件 格式 区 分 已 初始 化 
和 未 初始 化 变量 是 为 了 空间 效率 : 在 目标 文件 中 ， 未 初始 化 变量 不 需要 占据 任何 实际 的 磁 
盘 空 间 。 运 行 时 ， 在 内 存 中 分 配 这 些 变量 ， 初 始 值 为 0。 

.symtab: 一 个 符号 表 ， 它 存放 在 程序 中 定义 和 引用 的 函数 和 全 局 变量 的 信息 。 一 些 
程序 员 错误 地 认为 必须 通过 -g 选项 来 编译 一 个 程序 ， 才 能 得 到 符号 表 信 息 。 实 际 上 ， 每 
个 可 重 定位 目标 文件 在 .symtab 中 都 有 一 张 符号 表 ( 除 非 程序 员 特 意 用 STRIP 命令 去 掉 
它 ) 。 然 而 ， 和 编译 器 中 的 符号 表 不 同 , .symtab 符号 表 不 包含 局 部 变量 的 条 目 。 

.rel.text: 一 个 .text 节 中 位 置 的 列表 ， 当 链接 器 把 这 个 目标 文件 和 其 他 文件 组 合 
时 ,需要 修改 这 些 位 置 。 一 般 而 言 ， 任 何 调用 外 部 函数 或 者 引用 全 局 变量 的 指令 都 需要 修 
改 。 另 一 方面 ， 调 用 本 地 陋 数 的 指令 则 不 需要 修改 。 注 意 ， 可 执行 目标 文件 中 并 不 需要 重 
定位 信息 ， 因 此 通常 省 略 ， 除 非 用 户 显 式 地 指示 链接 器 包含 这 些 信息 。 

.rel.data: 被 模块 引用 或 定义 的 所 有 全 局 变量 的 重 定位 信息 。 一 般 而 言 ， 任 何 已 初 
始 化 的 全 局 变量 ， 如 果 它 的 初始 值 是 一 个 全 局 变量 地 址 或 者 外 部 定义 函数 的 地 址 ， 都 需要 
被 修改 。 

.debug: 一 个 调试 符号 表 ， 其 条 目 是 程序 中 定义 的 局 部 变量 和 类 型 定义 ， 程 序 中 定 
义 和 引 用 的 全 局 变量 ， 以 及 原始 的 C 源 文件 。 只 有 以 -g 选项 调用 编译 器 驱动 程序 时 ， 才 
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会 得 到 这 张 表 。 

.line: 原始 C 源 程序 中 的 行 号 和 .text 节 中 机 器 指令 之 间 的 映射 。 只 有 以 -g 选项 调 
用 编译 器 驱动 程序 时 ， 才 会 得 到 这 张 表 。 

.strtab: 一 个 字符 串 表 ， 其 内 容 包 括 .symtab 和 .debug 节 中 的 符号 表 ， 以 及 节 头 
部 中 的 节 名 字 。 字 符 串 表 就 是 以 null 结尾 的 字符 串 的 序列 。 


| 旁 注 | 为 什么 未 初始 化 的 数据 称 为 .bss 
用 术语 .bss 来 表示 未 初始 化 的 数据 是 很 普遍 的 。 它 起 始 于 IBM 704 汇编 语言 (大 约 
在 1957 年 ) 中 “ 块 存储 开始 (Block Storage Start)” 指令 的 首 字 母 缩 写 ， 并 活用 至 今 。 
一 种 记 住 .data 和 .bss 节 之 间 区 别 的 简单 方法 是 把 “bss” 看 成 是 “更 好 地 节省 空间 
(Better Save Space)” 的 缩写 。 : 


7.5 符号 和 符号 表 
每 个 可 重 定 位 目标 模块 m 都 有 一 个 符号 表 ， 它 包含 m 定义 和 引用 的 符号 的 信息 。 在 
链接 器 的 上 下 文中 ， 有 三 种 不 同 的 符号 : 
e 由 模块 m 定义 并 能 被 其 他 模块 引用 的 会 局 符号 。 全 局 链接 器 符号 对 应 于 非 静 态 的 C 
函数 和 全 局 变量 。 
e 由 其 他 模块 定义 并 被 模块 m 引用 的 全 局 符号 。 这 些 符 号 称 为 外 部 符号 ， 对 应 于 在 其 
他 模块 中 定义 的 非 静 态 C 函数 和 全 局 变量 。 
e 只 被 模块 mr 定义 和 引用 的 局 部 符号 。 它 们 对 应 于 带 static 属性 的 C 函数 和 全 局 变 
量 。 这 些 符号 在 模块 m 中 任何 位 置 都 可 见 ， 但 是 不 能 被 其 他 模块 引用 。 
认识 到 本 地 链接 器 符号 和 本 地 程序 变量 不 同 是 很 重要 的 。.symtab 中 的 符号 表 不 包含 
对 应 于 本 地 非 静态 程序 变量 的 任何 符号 。 这 些 符号 在 运行 时 在 栈 中 被 管理 ， 链 接 器 对 此 类 
符号 不 感 兴趣 。 
有 趣 的 是 ， 定 义 为 带 有 C static 属性 的 本 地 过 程 变量 是 不 在 栈 中 管理 的 。 相 反 ， 纺 
译 器 在 .data 或 .bss 中 为 每 个 定义 分 配 空间 ， 并 在 符号 表 中 创建 一 个 有 唯一 名 字 的 本 地 
链接 器 符号 。 比 如 ， 假 设 在 同一 模块 中 的 两 个 函数 各 自 定 义 了 一 个 静态 局 部 变量 x: 


1 int f() 

区 冰 

3 static int x = 0; 
4 return x; 

让 

6 

7 nt st) 

8 过 

Br static int x = 1; 
10 return x; 

11 } 


在 这 种 情况 中 ， 编 译 器 向 汇编 器 输出 两 个 不 同名 字 的 局 部 链接 器 符号 。 比 如 ， 它 可 以 
用 x.1 表示 函数 f£ 中 的 定义 ， 而 用 x.2 表示 函数 g 中 的 定义 。 





E90 雍 WE 省 惠 利用 static 属 性 隐藏 变量 和 函数 名 字 
C 程序 员 使 用 static 属性 隐藏 模块 内 部 的 变量 和 函数 声明 ， 就 像 你 在 Java 和 C++ - 
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中 使 用 public 和 private 声明 一 样 。 在 C 中 ， 源 文件 扮演 模块 的 角色 。 任 何 带 有 
static 属性 声明 的 全 局 变量 或 者 函数 都 是 模块 私有 的 。 类 似 地 ， 任 何不 带 static 属 
性 声明 的 全 局 变量 和 函数 都 是 公共 的 ， 可 以 被 其 他 模 决 访问 。 尽 可 能 用 static 属性 来 
保护 你 的 变量 和 函数 是 很 好 的 编程 习惯 。 


”符号 表 是 由 汇编 器 构造 的 ， 使 用 编译 器 输出 到 汇编 语言 .s 文件 中 的 符号 。.symtab 节 
中 包含 ELF 符号 表 。 这 张 符号 表 包 含 一 个 条 目的 数组 。 图 7-4 展示 了 每 个 条 目的 格式 。 


code/link/elfstructs.c 
1 typedef struct 1 
2 int name; /* String table offset */ 
3 char type:4, /* Function or data (4 bits) */ 
4 binding:4; /* Local or global (4 bits) */ 
5 char reserved; /* Unused */ 
6 short section; /* Section header index */ 
这 long value; /* Section offset or absolute address */ 
8 long size; /* Object size in bytes */ 
9 } Elf64_Symbol; 
code/link/elfstructs.c 


图 7-4 ELF 符号 表 条 目 。type 和 binding 字段 每 个 都 是 4 位 


name 是 字符 串 表 中 的 字 节 偏 移 ， 指 向 符号 的 以 null 结尾 的 字符 串 名 字 。value 是 符 
号 的 地 址 。 对 于 可 重 定位 的 模块 来 说 ，value 是 距 定义 目标 的 节 的 起 始 位 置 的 偏 移 。 对 于 
可 执行 目标 文件 来 说 ， 该 值 是 一 个 绝对 运行 时 地 址 。size 是 目标 的 大 小 (以 字 节 为 单位 ) 。 
type 通常 要 么 是 数据 ， 要 么 是 函数 。 符 号 表 还 可 以 包含 各 个 节 的 条 目 ， 以 及 对 应 原始 源 
文件 的 路 径 名 的 条 目 。 所 以 这 些 目标 的 类 型 也 有 所 不 同 。binding 字段 表示 符号 是 本 地 的 
还 是 全 局 的 。 

每 个 符号 都 被 分 配 到 目标 文件 的 某 个 节 ， 由 section 字段 表示 ， 该 字段 也 是 一 个 到 
节 头 部 表 的 索引 。 有 三 个 特殊 的 伪 节 (pseudosection)， 它 们 在 节 头 部 表 中 是 没有 条 目的 : 
ABS 代表 不 该 被 重 定位 的 符号 ;UNDEF 代表 未 定义 的 符号 ， 也 就 是 在 本 目标 模块 中 引 
用 , 但 是 却 在 其 他 地 方 定义 的 符号 ; COMMON 表示 还 未 被 分 配 位 置 的 未 初始 化 的 数据 目 
标 。 对 于 COMMON 符号 ，value 字段 给 出 对 齐 要 求 ， 而 size 给 出 最 小 的 大 小 。 注 意 ， 
只 有 可 重 定位 目标 文件 中 才 有 这 些 伪 节 ， 可 执行 目标 文件 中 是 没有 的 。 

COMMON 和 .bss 的 区 别 很 细微 。 现 代 的 GCC 版 本 根据 以 下 规则 来 将 可 重 定位 目标 
文件 中 的 符号 分 配 到 COMMON 和 .bss 中 : 

COMMON ”未 初始 化 的 全 局 变量 
.bss 未 初始 化 的 静态 变量 ,以 及 初始 化 为 0 的 全 局 或 静态 变量 
采用 这 种 看 上 去 很 绝对 的 区 分 方式 的 原因 来 自 于 链接 器 执行 符号 解析 的 方式 ， 我 们 会 在 
7.6 市 中 加 以 解释 。 

GNU READELF 程序 是 一 个 查看 目标 文件 内 容 的 很 方便 的 工具 。 比 如 ， 下 面 是 图 7-1 
中 示例 程序 的 可 重 定位 目标 文件 main.o 的 符号 表 中 的 最 后 三 个 条 目 。 开 始 的 8 个 条 目 没 
有 显示 出 来 ， 它 们 是 链接 器 内 部 使 用 的 局 部 符号 。 


Num: Value Size Type Bind Vis Ndx Name 
8: 0000000000000000 24 FUNC GLOBAL DEFAULT 1 main 
9: 0000000000000000 8 OBJECT GLOBAL DEFAULT 3 array | 


10: 0000000000000000 0 NOTYPE GLOBAL DEFAULT UND sum 
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在 这 个 例子 中 ， 我 们 看 到 全 局 符号 main 定义 的 条 目 ， 它 是 一 个 位 于 .text 节 中 偏 移 量 
为 0( 即 value 值 ) 处 的 24 字 节 函数 。 其 后 跟随 着 的 是 全 局 符号 array 的 定义 ， 它 是 一 个 位 
于 .data 节 中 偏 移 量 为 0 处 的 8 字 节 目标 。 最 后 一 个 条 目 来 自 对 外 部 符号 sum 的 引用 。 
READELF 用 一 个 整数 索引 来 标识 每 个 节 。Ndx=1 表示 .text 节 ， 而 Ndx=3 表示 .data 节 。 
及 衬 练习 题 7. 1 这 个 题目 针对 图 7-5 中 的 m.o 和 swap.o 模块 。 对 于 每 个 在 swap.o 中 定 
义 或 引用 的 符号 ， 请 指出 它 是 否 在 模块 swap.o 中 的 .symtab 节 中 有 一 个 符号 表 条 
目 。 如 果 是 ， 请 指出 定义 该 符号 的 模块 (swap.o 或 者 m.o)、 符 号 类 型 (局 部 、 全 局 或 
者 外 部 ) 以 及 它 在 模块 中 被 分 配 到 的 节 ( .text、.data、.bss 或 COMMON) 。 




































code/llinK/m.c 一 一 一 code/link/swap.c 


void swap(); extern int buf[]; 


1 1 
之 2 
3 int buf[2] = {1, 2}; 3 int *bufp0 = &buf [0]; 
4 4 int *bufpl; 
5 int main() 5 
6 二 6 void swap() 
7 swap(); Ww 六 
8 return 0; 8 int temp; 
.Et, 9 
code/link/m.c 10 bufpl = &buf [1]; 
11 temp = *bufp0; 
12 *#bufpO = *bufpl; 
je *bufpl = temp; 
14 
code/link/swap.c 
a)m.c b) swap.c 
图 7-5 练习 题 7. 1 的 示例 程序 
7.6 符号 解析 


链接 器 解析 符号 引用 的 方法 是 将 每 个 引用 与 它 输 入 的 可 重 定位 目标 文件 的 符号 表 中 的 
一 个 确定 的 符号 定义 关联 起 来 。 对 那些 和 引用 定义 在 相同 模块 中 的 局 部 符号 的 引用 ， 符 号 
解析 是 非常 简单 明了 的 。 编 译 器 只 允许 每 个 模块 中 每 个 局 部 符号 有 一 个 定义 。 静 态 局 部 变 
量 也 会 有 本 地 链接 器 符号 ， 编 译 器 还 要 确保 它们 拥有 唯一 的 名 字 。 

不 过 ， 对 全 局 符号 的 引用 解析 就 环 手 得 多 。 当 编译 器 遇 到 一 个 不 是 在 当前 模块 中 定义 
的 符号 (变量 或 函数 名 ) 时 ， 会 假设 该 符号 是 在 其 他 某 个 模块 中 定义 的 ， 生 成 一 个 链接 器 符 
号 表 条 目 ， 并 把 它 交 给 链接 器 处 理 。 如 果 链 接 器 在 它 的 任何 输入 模块 中 都 找 不 到 这 个 被 引 
用 符号 的 定义 ， 就 输出 一 条 (通常 很 难 阅读 的 ) 错 误 信息 并 终止 。 比 如 ， 如 果 我 们 试 着 在 一 


Ei 
吉 
个 
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台 Linux 机 器 上 编译 和 链接 下 面 的 源 文件 : 


void foo(void); 


| 

2 

3 int main() { 
4 foo(); 

和 return 0; 
知己 二 


那么 编译 器 会 没有 障碍 地 运行 ， 但 是 当 链 接 器 无 法 解析 对 foo 的 引用 时 ， 就 会 终止 ， 
linux> gcc -Wall -0g -~o linkerror linkerror.c 
/tmp/ccSz5uti.o: In function ‘main': 
/tmp/ccSz5uti.o(.text+0x7): undefined reference to “foo' 


对 全 局 符号 的 符号 解析 很 糠 手 ， 还 因为 多 个 目标 文件 可 能 会 定义 相同 名 字 的 全 局 符 
号 。 在 这 种 情况 中 ， 链 接 器 必须 要 么 标志 一 个 错误 ， 要么 以 某 种 方法 选 出 一 个 定义 并 抛弃 
其 他 定义 。Linux 系统 采纳 的 方法 涉及 编译 器 、 汇 编 器 和 链接 器 之 间 的 协作 ， 这 样 也 可 能 
给 不 警觉 的 程序 员 带 来 一 些 麻烦 。 


旁 注 | 对 C++ 和 Java 中 链接 器 符号 的 重 整 

C++ 和 Java 都 允许 重 载 方法 ， 这 些 方法 在 源 代 码 中 有 相同 的 名 字 ， 却 有 不 同 的 参数 
列表 。 那 么 链接 器 是 如 何 区 别 这 些 不 同 的 重 载 函 数 之 间 的 差异 呢 ? C++ 和 Java 中 能 使 用 
重 载 函数 ， 是 因为 编译 器 将 每 个 唯一 的 方法 和 参数 列表 组 合 编码 成 一 个 对 链接 器 来 说 唯一 
的 名 字 。 这 种 编码 过 程 叫 做 重 整 (mangling)， 而 相反 的 过 程 叫做 恢复 (demangling) 。 

幸运 的 是 ，C++ 和 Java 使 用 兼容 的 重 整 策略 。 一 个 被 重 整 的 类 名 字 是 由 名 字 中 字符 
的 整数 数量 ， 后 面 跟 原 始 名 字 组 成 的 。 比 如 ， 类 Foo 被 编码 成 3Foo。 方 法 被 编码 为 原始 方 
法 名 ， 后 面 加 上 __， 加 上 被 重 整 的 类 名 ， 再 加 上 每 个 参数 的 单字 母 编码 。 比 如 ，Foo::bar 
(int， long) 被 编码 为 bar 3Fooil。 重 整 全 局 变量 和 模板 名 字 的 策略 是 相似 的 。 


7.6.1 链接 器 如 何 解析 多 重 定义 的 全 局 符号 


链接 器 的 输入 是 一 组 可 重 定位 目标 模块 。 每 个 模块 定义 一 组 符号 ， 有 些 是 局 部 的 (只 
' 对 定义 该 符号 的 模块 可 见 ) ， 有 些 是 全 局 的 (对 其 他 模块 也 可 见 )。 如 果 多 个 模块 定义 同名 
的 全 局 符号 ， 会 发 生 什 么 呢 ? 下 面 是 Linux 编译 系统 采用 的 方法 。 

在 编译 时 ， ee te ert hs 或 者 是 强 (strong) 或 者 是 弱 (weak)， 
而 汇编 器 把 这 个 信息 隐 含 地 编码 在 可 重 定位 目标 文件 的 符号 表 里 。 函 数 和 已 初始 化 的 全 局 
变量 是 强 符号 ， i 量 是 弱 符 号 。 

根据 强 弱 符 号 的 定义 ，Linux 链接 器 使 用 下 面 的 规则 来 处 理 多 重 定义 的 符号 名 : 

e 规则 1: 不 允许 有 多 个 同名 的 强 符号 。 

e 规则 2: 如 果 有 一 个 强 符号 和 多 个 弱 符 号 同名 ， 那 么 选择 强 符号 。 

e 规则 3: 如 果 有 多 个 弱 符 号 同名 ， 那 么 从 这 些 弱 符号 中 任意 选择 一 个 。 

比如 ， 假 设 我 们 试图 编译 和 链接 下 面 两 个 C 模块 : 


1 /* fooil.c */ 
2 int main() 

澡 “” 殷 

4 return 0; 
”二 
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1 /* barl.c */ 
p> int main() 
4 

4 return 0; 
S$ 二 


在 这 个 情况 中 ， 链 接 器 将 生成 一 条 错误 信息 ， 因 为 强 符号 main 被 定义 了 多 次 (规则 1); 
linux> gcc fooil.c bari.c 

/tmp/ccq2Uxnd.o: In function ‘main': 

barl.c:(.text+0x0): multiple definition of ‘main' 


相似 地 ， 链 接 器 对 于 下 面 的 模块 也 会 生成 一 条 错误 信息 ， 因 为 强 符号 x 被 定义 了 两 次 


(规则 1) : 
/* foo2.c */ 


int x = 15213; 
E 

4 int main() 

号 于 

6 return 0; 
0 


/* bar2.c */ 
int x = 15213; 


{ 
然而 ， 如 果 在 一 个 模块 里 x 未 被 初始 化 ， 那 么 链接 器 将 安静 地 选择 在 另 一 个 模块 中 定 
义 的 强 符 号 (规则 2): 
/* foo3.c */ 
#include <stdio.h> 
void f(void); 


1 
到 
3 
4 void f() 
5 
6 


EE 


int x = 15213; 


int main() 


和 


oN om Ww hh 


Fs 
printf("x = %d\n'", x); 
return 0; 


-1 
NR 一口 


} 


/* bar3.c */ 
了 攻 匡 


void f() 


T 
x = 15212; 


Nom AWwWNND- 


} 
在 运行 时 ， 函 数 工 将 x 的 值 由 15213 改 为 15212， 这 会 给 main 函数 的 作者 带 来 不 受 
欢迎 的 意外 ! 注意 ， 链接 器 通常 不 会 表明 它 检 测 到 多 个 x 的 定义 : 





linux> gcc -0 foobar3 foo3.c bar3.c 
linux> ./foobar3 


x = 15212 

如 果 zx 有 两 个 弱 定义 ， 也 会 发 生 相 同 的 事情 (规则 3): 
1 /* foo4.c */ 

和 #include <stdio.h> 

3 void f(void); 

4 

5 int: x 

6 

7 int main() 

8 并 

9 贡 三 法 5243; 

10 ECs 

而 printf("x = %d\n", x); 
但 return 0; 

1 小 


/* bar4.c */ 
int x; 


1 
2 
3 
4 void f() 
ct 
6 X = 15212; 

A : 

规则 2 和 规则 3 的 应 用 会 造成 一 些 不 易 察 觉 的 运行 时 错误 ， 对 于 不 警觉 的 程序 员 来 
说 ， 是 很 难 理解 的 ， 尤 其 是 如 果 重 复 的 符号 定义 还 有 不 同 的 类 型 时 。 考 虑 下 面 这 个 例子 ， 
其 中 x 不 幸 地 在 一 个 模块 中 定义 为 int， 而 在 另 一 个 模块 中 定义 为 double: 


1 /* foo5.c */ 
强 #include <stdio.h> 
3 void f(void); 
4 
5 int y = 15212; 
6 int x = 15213; 
7 
8 int main() 
。 嘲 
10 f(); 
11 printf("x = Ox%x y = Ox%x \n", 
入 Ks ys 
18 return 0; 
要 光 
1 /* bar5.c */ 
2 double xi; 
3 
4 void f() 
时 让 
6 X = -0.0; 
2 
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在 一 台 x86-64/Linux 机 器 上 ，double 类 型 是 8 个 字 节 ， 而 int 类 型 是 4 个 字 节 。 在 
我 们 的 系统 中 ，x 的 地 址 是 0x601020，y 的 地 址 是 0x601024。 因 此 ，bar5.c 的 第 6 行 中 
的 赋值 x=-0.0 将 用 负 零 的 双 精 度 浮 点 表示 覆盖 内 存 中 x 和 y 的 位 置 (foo5.c 中 的 第 5 行 
和 第 6 行 )! 

linux> gcc -Wall -0g -o foobar5 foo5.c bar5.c 

/usr/bin/1d: Warning: alignment 4 of symbol ‘x' in /tmp/cclUFK5g.o 

is smaller than 8 in /tmp/ccbTLcb9.o 


linux> ./foobar5 
X = Ox0 y = 0x80000000 


这 是 一 个 细微 而 令 人 讨厌 的 错误 ， 尤 其 是 因为 它 只 会 触发 链接 器 发 出 一 条 警告 ， 而 且 
通常 要 在 程序 执行 很 久 以 后 才 表 现 出 来 ， 且 远离 错误 发 生地 。 在 一 个 拥有 成 百 上 千 个 模块 
的 大 型 系统 中 ， 这 种 类 型 的 错误 相当 难以 修正 ， 尤 其 因为 许多 程序 员 根 本 不 知道 链接 器 是 
如 何 工 作 的 。 当 你 怀疑 有 此 类 错误 时 ， 用 像 GCC -fno-common 标志 这 样 的 选项 调用 链接 
器 ， 这 个 选项 会 告诉 链接 器 ， 在 遇 到 多 重 定义 的 全 局 符号 时 ， 触 发 一 个 错误 。 或 者 使 用 
-Werzor 选 项 ， 它 会 把 所 有 的 警告 都 变 为 错误 。 

在 7.5 节 中 ， 我们 看 到 了 编译 器 如 何 按照 一 个 看 似 绝对 的 规则 来 把 符号 分 配 为 COM 
MON 和 .bss。 实 际 上 ， 采 用 这 个 惯例 是 由 于 在 某 些 情况 中 链接 器 允许 多 个 模块 定义 同名 世 
全 局 符号 。 当 编译 器 在 翻译 某 个 模块 时 ， 遇 到 一 个 弱 全 局 符号 ， 比 如 说 x， 它 并 不 知道 其 他 
模块 是 否 也 定义 了 x， 如 果 是 ， 它 无 法 预测 链接 器 该 使 用 x 的 多 重 定义 中 的 哪 一 个 。 所 以 编译 
器 把 x 分 配 成 COMMON， 把 决定 权 留 给 链接 器 。 另 一 方面 ， 如 果 x 初 始 化 为 0， 那 么 它 是 一 个 
强 符号 (因此 根据 规则 2 必须 是 唯一 的 )， 所 以 编译 器 可 以 很 自信 地 将 它 分 配 成 .pss。 类 似 地 ， 
静态 符号 的 构造 就 必须 是 唯一 的 ， 所 以 编译 器 可 以 自信 地 把 它们 分 配 成 .data 或 .bss。 

区 对 练习 题 7.2 ”在 此 题 中 ，REF (x.i)->DEF (x.k) 表 示 链 接 器 将 把 模块 i 中 对 符号 x 的 任意 

引用 与 模块 k 中 x 的 定义 关联 起 来 。 对 于 下 面 的 每 个 示例 ， 用 这 种 表示 法 来 说 明 链 接 器 

将 如 何 解析 每 个 模块 中 对 多 重 定 义 符号 的 引用 。 如 果 有 一 个 链接 时 错误 (规则 1)， 写 

“错误 ”。 如 果 链 接 器 从 定义 中 任意 选择 一 个 (规则 3)， 则 写 “ 未 知 ”。 








A. /* Module 1 */ /* Module 2 */ 
int main() int main; 
{ int p2() 
} { 
此 
(a) REF(main.1) >DEF(  .  ) 
(b) REF(main.2) 一 DEF(_ ) 
B. /* Module 1 */ /* Module 2 */ 
void main() int main = 1; 
{ int p2() 
} = 
二 
(a) REF(main.1) >DEF(  .  ) 
(b) REF(main.2) 一 DEF( ) 
C. /* Module 1 */ /* Module 2 */ 
int x; double x = 1.0; 
void main() int P2() 
二 东 


} 四 
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(a) REF(x.) ->DEF( .  ) 
(b) REF(x.2) -> DEF( . ) 





7.6.2 与 静态 库 链 接 

迄今 为 止 ， 我 们 都 是 假设 链接 器 读 取 一 组 可 重 定位 目标 文件 ， 并 把 它们 链接 起 来 ， 形 
成 一 个 输出 的 可 执行 文件 。 实 际 上 ， 所 有 的 编译 系统 都 提供 一 种 机 制 ， 将 所 有 相关 的 目标 
模块 打包 成 为 一 个 单独 的 文件 ， 称 为 静态 库 (static library)， 它 可 以 用 做 链接 器 的 输入 。 
当 链 接 器 构造 一 个 输出 的 可 执行 文件 时 ， 它 只 复制 静态 库 里 被 应 用 程序 引用 的 目标 模块 。 

为 什么 系统 要 支持 库 的 概念 呢 ? 以 ISO C99 为 例 ， 它 定义 了 一 组 广泛 的 标准 IO、 字 
符 串 操作 和 整数 数学 函数 ， 例 如 atoi、printf、scanf、strcpy 和 rand。 它 们 在 lipc. 
a 库 中 ， 对 每 个 C 程序 来 说 都 是 可 用 的 。ISO C99 还 在 libm.a 库 中 定义 了 一 组 广泛 的 浮 
点 数学 函数 ， 例 如 sin、cos 和 sqrt。 

让 我 们 来 看 看 如 果 不 使 用 静态 库 ， 编 译 器 开发 人 员 会 使 用 什么 方法 来 向 用 户 提 供 这 些 
函数 。 一 种 方法 是 让 编译 器 辨认 出 对 标准 函数 的 调用 ， 并 直接 生成 相应 的 代码 。Pascal( 只 
提供 了 一 小 部 分 标准 函数 ) 采 用 的 就 是 这 种 方法 ， 但 是 这 种 方法 对 C 而 言 是 不 合适 的 ， 因 
为 C 标 准 定义 了 大 量 的 标准 函数 。 这 种 方法 将 给 编译 器 增加 显著 的 复杂 性 ， 而 且 每 次 添 
加 、 删 除 或 修改 一 个 标准 函数 时 ， 就 需要 一 个 新 的 编译 器 版 本 。 然 而 ， 对 于 应 用 程序 员 而 
言 ， 这 种 方法 会 是 非常 方便 的 ， 因 为 标准 函数 将 总 是 可 用 的 。 

另 一 种 方法 是 将 所 有 的 标准 C 函数 都 放 在 一 个 单独 的 可 重 定位 目标 模块 中 (比如 说 
libc.o 中 ) 应 用 程序 员 可 以 把 这 个 模块 链接 到 他 们 的 可 执行 文件 中 : 


linux> gcc main.c /usr/1ib/libc.o 


这 种 方法 的 优点 是 它 将 编译 器 的 实现 与 标准 函数 的 实现 分 离开 来 ， 并 且 仍然 对 程序 员 
保持 适度 的 便利 。 然 而 ， 一 个 很 大 的 缺点 是 系统 中 每 个 可 执行 文件 现在 都 包含 着 一 份 标准 
函数 集合 的 完全 副本 ， 这 对 磁盘 空间 是 很 大 的 浪费 。( 在 一 个 典型 的 系统 上 ，1ibc.a 大 约 
是 5MB， 而 1ipm.a 大 约 是 2MB。) 更 糟 的 是 ， 每 个 正在 运行 的 程序 都 将 它 自己 的 这 些 函 数 
的 副本 放 在 内 存 中 ， 这 是 对 内 存 的 极度 浪费 。 另 一 个 大 的 缺点 是 ， 对 任何 标准 函数 的 任何 
改变 ， 无 论 多 么 小 的 改变 ， 都 要 求 库 的 开发 人 员 重 新 编译 整个 源 文件 ， 这 是 一 个 非常 耗 时 
的 操作 ， 使 得 标准 函数 的 开发 和 维护 变 得 很 复杂 。 

我 们 可 以 通过 为 每 个 标准 函数 创建 一 个 独立 的 可 重 定位 文件 ， 把 它们 存放 在 一 个 为 大 
家 都 知道 的 目录 中 来 解决 其 中 的 一 些 问 题 。 然 而 ， 这 种 方法 要 求 应 用 程序 员 显 式 地 链接 合 
适 的 目标 模块 到 它们 的 可 执行 文件 中 ， 这 是 一 个 容易 出 错 而 且 耗 时 的 过 程 : 

linux> gcc main.c /usr/1ib/printf.o /usrV/Iib/scanf.o ... 


静态 库 概 念 被 提出 来 ， 以 解决 这 些 不 同方 法 的 缺点 。 相 关 的 函数 可 以 被 编译 为 独立 的 
目标 模块 ， 然 后 封装 成 一 个 单独 的 静态 库 文件 。 然 后 ， 应 用 程序 可 以 通过 在 命令 行 上 指定 
”单独 的 文件 名 字 来 使 用 这 些 在 库 中 定义 的 函数 。 比 如 ， 使 用 C 标准 库 和 数学 库 中 函数 的 程 
。 序 可 以 用 形式 如 下 的 命令 行 来 编译 和 链接 : 


linux> gcc main.c /uszr/Iib/Iibm.a /usr/lib/libc.a 


在 链接 时 ， 链 接 器 将 只 复制 被 程序 引用 的 目标 模块 ， 这 就 减少 了 可 执行 文件 在 磁盘 和 内 
存 中 的 大 小 。 另 一 方面 ， 应 用 程序 员 只 需要 包含 较 少 的 库 文件 的 名 字 ( 实 际 上 ，C 编译 器 驱 
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动 程序 总 是 传送 1ibc.a 给 链接 器 ， 所 以 前 面 提 到 的 对 1ibc.a 的 引用 是 不 必要 的 )。 

在 Linux 系统 中 ， 静 态 库 以 一 种 称 为 存档 (archive) 的 特殊 文件 格式 存放 在 磁盘 中 。 存 
档 文 件 是 一 组 连接 起 来 的 可 重 定位 目标 文件 的 集合 ， 有 一 个 头 部 用 来 描述 每 个 成 员 目 标 文 
件 的 大 小 和 位 置 。 存 档 文 件 名 由 后 级 .a 标识 。 

为 了 使 我 们 对 库 的 讨论 更 加 形象 具体 ， 考 虑 图 7-6 中 的 两 个 向 量 例 程 。 每 个 例 程 ， 定 
义 在 它 自 己 的 目标 模块 中 ， 对 两 个 输入 向 量 进行 一 个 向 量 操作 ， 并 把 结果 存放 在 一 个 输出 
向 量 中。 每 个 例 程 有 一 个 副作用 ， 会 记录 它 自己 被 调用 的 次 数 ， 每 次 被 调用 会 把 一 个 全 局 
变量 加 1。( 当 我 们 在 7. 12 节 中 解释 位 置 无 关 代 码 的 思想 时 会 起 作用 。) 


code/link/addvec.c 一 code/link/multvec.c 


int addcnt = 0; int multcnt = 0; 


1 1 
2 2 
3 void addvec(int *x, int *y, 3 void multvec(int *x, int *y, 
4 int *z, int n) 4 int *z, int n) 
入 区 5 
6 inb 313 6 I 工 
罗 
8 addcnt++ ; 8 multcnt++; 
9 9 
10 for (i = 0; i < n; i++) 10 for (i = 0; i < n; i++) 
11 zlil = x yt]s 11 z[i] = x[i] * yl[i]; 
祈 。 记 二 
code/link/addvec.c —————————————— code/link/multvec.c 
a) addvec.o b) multvec.o 


图 7-6 libvector 库 中 的 成 员 目 标 文件 
要 创建 这 些 函 数 的 一 个 静态 库 ， 我 们 将 使 用 AR 工具 ， 如 下 : 


linux> gcc -c addvec.c multvec.c 
linux> ar rcs libvector.a addvec.o multvec.o 


为 了 使 用 这 个 库 ， 我 们 可 以 编写 一 个 应 用 ， 比 如 图 7-7 中 的 main2.c， 它 调用 addvec 
库 例 程 。 包 含 ( 或 头 ) 文 件 vector.h 定义 了 1libvector.a 中 例 程 的 函数 原型 。 


code/link/main2.c 
#include <stdio.h> 
#include "vector.h" 


int x[2] = {1, 2}; 
int y[2] = {3, 4}; 
int z[2]; 


int main() 


OoNomAwWwWNN- 
p 
pb 
[a 


* 
10 addvec(x, y, z, 2); 
条 printf("z = [%d %d]j\n", z[0], z[1]); 
检 return 0; 
科 -于 


code/link/main2.c 
图 7-7 示例 程序 2。 这 个 程序 调用 1ibvector 库 中 的 函数 


为 了 创建 这 个 可 执行 文件 ， 我 们 要 编译 和 链接 输入 文件 main.o 和 1libvector .a: 
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linux> gcc -c main2.c 
linux> gcc -static -0 prog2c main2.0 ./libvector.a 


或 者 等 价 地 使 用 : 


linux> gcc -c main2.c 
linux> gcc -static -0 prog2c main2.0 -L. -lvector 


图 7-8 概括 了 链接 器 的 行为 。-static 参数 告诉 编译 器 驱动 程序 ， 链接 器 应 该 构建 一 
个 完全 链接 的 可 执行 目标 文件 ， 它 可 以 加 载 到 内 存 并 运行 ， 在 加 载 时 无 须 更 进一步 的 链 
接 。-1vector 参数 是 1ibvector .a 的 缩写 ，-L. 参 数 告诉 链接 器 在 当前 目录 下 查找 1ib- 
Vector .ao。 


源 文 件 main2.c vector.h 


(aps Col; Hs 


可 重 定位 目标 文件 ”maiR2 .9 


链接 器 (1d ) 
prog2c ”完全 链接 的 
可 执行 目标 文件 


图 7-8 与 静态 库 链接 


当 链 接 器 运行 时 ， 它 判定 main2.o 引用 了 addvec.o 定义 的 addvec 符号 ， 所 以 复制 
addvec.o 到 可 执行 文件 。 因 为 程序 不 引用 任何 由 multvec.o 定义 的 符号 ， 所 以 链接 器 就 
不 会 复制 这 个 模块 到 可 执行 文件 。 链 接 器 还 会 复制 libc.a 中 的 printf.o 模块 ， 以 及 许 
多 C 运行 时 系统 中 的 其 他 模块 。 


7.6. 3 ”链接 器 如 何 使 用 静态 库 来 解析 引用 


虽然 静态 库 很 有 用 ， 但 是 它们 同时 也 是 一 个 程序 员 迷 惑 的 源头 ， 原 因 在 于 Linux 链接 
器 使 用 它们 解析 外 部 引用 的 方式 。 在 符号 解析 阶段 ， 链 接 器 从 左 到 右 按 照 它们 在 编译 器 驱 
动 程序 命令 行 上 出 现 的 顺序 来 扫描 可 重 定位 目标 文件 和 存档 文件 。( 驱 动 程序 自动 将 命令 
行 中 所 有 的 .c 文 件 翻译 为 .o 文 件 .) 在 这 次 扫描 中 ， 链 接 器 维护 一 个 可 重 定位 目标 文件 的 
集合 已 (这 个 集合 中 的 文件 会 被 合并 起 来 形成 可 执行 文件 )， 一 个 未 解析 的 符号 ( 即 引 用 了 
但 是 尚未 定义 的 符号 ) 集 合 U， 以 及 一 个 在 前 面 输入 文件 中 已 定义 的 符号 集合 D。 初 始 时 ， 
E、U 和 DD 均 为 空 。 
e 对 于 命令 行 上 的 每 个 输入 文件 /， 链 接 器 会 判断 f 是 一 个 目标 文件 还 是 一 个 存档 文 
件 。 如 果 f 是 一 个 目标 文件 ， 那 么 链接 器 把 了 添加 到 玉 ， 修改 U 和 DD 来 反映 了 中 
的 符号 定义 和 引用 ， 并 继续 下 一 个 输入 文件 。 
e 如 果 f 是 一 个 存档 文件 ， 那 么 链接 器 就 尝试 匹配 U 中 未 解析 的 符号 和 由 存档 文件 成 员 定 
义 的 符号 。 如 果 某 个 存档 文件 成 员 m， 定 义 了 一 个 符号 来 解析 UU 中 的 一 个 引用 ， 那 么 就 
将 m 加 到 巨 中 ， 并且 链 接 器 修改 U 和 也 来 反映 m 中 的 符号 定义 和 3 引用。 对 存档 文件 中 
所 有 的 成 员 目 标 文 件 都 依次 进行 这 个 过 程 ， 直 到 U 和 D 都 不 再 发 生变 化 。 此 时 ， 任 何不 
包含 在 上 中 的 成 员 目 标 文件 都 简单 地 被 丢弃 ， 而 链接 器 将 继续 处 理 下 一 个 输入 文件 。 





libvector.a libc.a 静态 库 









printf.o 和 其 他 
printf.o 调 用 的 模块 
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e 如 果 当 链接 器 完成 对 命令 行 上 输入 文件 的 扫描 后 ，U 是 非 空 的， 那么 链接 器 就 会 输出 一 
个 错误 并 终止 。 否 则 ， 它 会 合并 和 重 定位 五 中 的 目标 文件 ， 构 建 输出 的 可 执行 文件 。 

不 幸 的 是 ， 这 种 算法 会 导致 一 些 令 人 困扰 的 链接 时 错误 ， 因 为 命令 行 上 的 库 和 目标 文 
件 的 顺序 非常 重要 。 在 命令 行 中 ， 如 果 定 义 一 个 符号 的 库 出 现在 引用 这 个 符号 的 目标 文件 
之 前 ， 那 么 引用 就 不 能 被 解析 ， 链 接 会 失败 。 比 如 ， 考 虑 下 面 的 命令 行 发 生 了 什么 ? 

linux> gcc -~static ./libvector.a main2.c 

/tmp/cc9XH6Rp.o0: In function 'main': 

/tmp/cc9XH6ERp.o(.text+0x18): undefined reference to 'addvec' 

在 处 理 1ibvector.a 时 , U 是 空 的 ， 所 以 没有 libvector.a 中 的 成 员 目 标 文 件 会 添 
加 到 巨 中 。 因 此 ， 对 addvec 的 引用 是 绝 不 会 被 解析 的 ， 所 以 链接 器 会 产生 一 条 错误 信息 
并 终止 。 

关于 库 的 一 般 准则 是 将 它们 放 在 命令 行 的 结尾 。 如 果 各 个 库 的 成 员 是 相互 独立 的 (也 
就 是 说 没有 成 员 引 用 另 一 个 成 员 定义 的 符号 )， 那 么 这 些 库 就 可 以 以 任何 顺序 放置 在 命令 
行 的 结尾 处 。 另 一 方面 ， 如 果 库 不 是 相互 独立 的 ， 那 么 必须 对 它们 排序 ， 使 得 对 于 每 个 被 
存档 文件 的 成 员外 部 引用 的 符号 s， 在 命令 行 中 至 少 有 一 个 s 的 定义 是 在 对 s 的 引用 之 后 
的 。 比 如 ， 假 设 foo.c 调 用 libx.a 和 1libz.a 中 的 函数 ， 而 这 两 个 库 又 调用 1ipy,a 中 
的 函数 。 那 么 ， 在 命令 行 中 libx.a 和 1ibz.a 必须 处 在 liby.a 之 前 : 


linux> gcc foo.c libx.a libz.a liby.a 


如 果 需 要 满足 依赖 需求 ， 可 以 在 命令 行 上 重复 库 。 比 如 ， 假 设 foo.c 调用 1ibx.a 中 
的 函数 ， 该 库 又 调用 1iby.a 中 的 函数 ， 而 liby.a 又 调用 libx.a 中 的 函数 。 那 么 1ibx， 
a 必 须 在 命令 行 上 重复 出 现 : 


linux> gcc foo.c libx.a liby.a libx.a 


另 一 种 方法 是 ， 我 们 可 以 将 lipbx.a 和 1ipby.a 合并 成 一 个 单独 的 存档 文件 。 

区 SN 练习 题 7.3 a 和 Db 表 示 当 前 目录 中 的 目标 模块 或 者 静态 库 ， 而 a>b 表示 a 依赖 于 b， 也 
就 是 说 b 定 义 了 一 个 被 a 引用 的 符号 。 对 于 下 面 每 种 场景 ， 请 给 出 最 小 的 命令 行 ( 即 一 个 
含有 最 少数 量 的 目标 文件 和 库 参 数 的 命令 )， 使 得 静态 链接 器 能 解析 所 有 的 符号 引用 。 

A Bg libwea 





有 
上 1iYy.8 -= 1iba.a™™ B.0 


7. 7 重 定 位 
一 旦 链接 器 完成 了 符号 解析 这 一 步 ， 就 把 代码 中 的 每 个 符号 引用 和 正好 一 个 符号 定义 
( 即 它 的 一 个 输入 目标 模块 中 的 一 个 符号 表 条 目 ) 关 联 起 来 。 此 时 ， 链 接 器 就 知道 它 的 输入 
目标 模块 中 的 代码 节 和 数据 节 的 确切 大 小 。 现 在 就 可 以 开始 重 定位 步骤 了 ， 在 这 个 步骤 
中 ， 将 合并 输入 模块 ， 并 为 每 个 符号 分 配 运行 时 地 址 。 重 定位 由 两 步 组 成 : 
@ 重 定位 节 和 符号 定义 。 在 这 一 步 中 ， 链 接 器 将 所 有 相同 类 型 的 节 合 并 为 同一 类 型 的 
新 的 聚合 节 。 例 如 ， 来自 所 有 输入 模块 的 .data 节 被 全 部 合并 成 一 个 节 ， 这 个 节 成 
为 输出 的 可 执行 目标 文件 的 .data 节 。 然 后 ,链接 器 将 运行 时 内 存 地 址 赋 给 新 的 了 
合 节 ， 赋 给 输入 模块 定义 的 每 个 节 ， 以 及 赋 给 输入 模块 定义 的 每 个 符号 。 当 这 一 步 
完成 时 ， 程 序 中 的 每 条 指令 和 全 局 变量 都 有 唯一 的 运行 时 内 存 地 址 了 。 
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@ 重 定位 节 中 的 符号 引用 。 在 这 一 步 中 ， 链 接 器 修改 代码 节 和 数据 节 中 对 每 个 符号 的 
引用 ， 使 得 它们 指向 正确 的 运行 时 地 址 。 要 执行 这 一 步 ， 链 接 器 依赖 于 可 重 定 位 目 
标 模 块 中 称 为 重 定 位 条 目 (relocation entry) 的 数据 结构 ， 我 们 接 下 来 将 会 描述 这 种 
数据 结 梳 


7.7.1 重 定位 条 目 


当 汇 编 器 生成 一 个 目标 模块 时 ， 它 并 不 知道 数据 和 代码 最 终 将 放 在 内 存 中 的 什么 位 
置 。 它 也 不 知道 这 个 模块 引用 的 任何 外 部 定义 的 函数 或 者 全 局 变量 的 位 置 。 所 以 ， 无论 何 
时 汇编 器 遇 到 对 最 终 位 置 未 知 的 目标 引用 ， 它 就 会 生成 一 个 重 定 位 条 目 ， 告 诉 链接 器 在 将 
目标 文件 合并 成 可 执行 文件 时 如 何 修改 这 个 引用 。 代 码 的 重 定 位 条 目 放 在 .rel.text 中 。 
已 初始 化 数据 的 重 定位 条 目 放 在 .rel.data 中 。 

图 7-9 展示 了 ELF 重 定位 条 目的 格式 。offset 是 需要 被 修改 的 引用 的 节 偏 移 。symbol 
标识 被 修改 引用 应 该 指向 的 符号 。type 告知 链接 器 如 何 修改 新 的 引用 。addend 是 一 个 有 
符号 常数 ， 一 些 类 型 的 重 定位 要 使 用 它 对 被 修改 引用 的 值 做 偏 移 调整 。 

code/link/elfstructs.c 
typedef struct { 

long offset; /* Offset of the reference to relocate */ 

long type:32, /* Relocation type */ 

symbol:32; /* Symbol table index */ 


long addqend ; /* Constant part of relocation expression */ 
} Elf64_Rela; 


Nm 上 wh 一 


code/link/elfstructs.c 
图 7-9 ”ELF 重 定位 条 目 。 每 个 条 目 表示 一 个 必须 被 重 定 位 的 引用 ， 并 指明 如 何 计算 被 修改 的 引用 


ELF 定义 了 32 种 不 同 的 重 定位 类 型 ， 有 些 相 当 隐 秘 。 我 们 只 关心 其 中 两 种 最 基本 的 
重 定位 类 型 ， 

e R_X86_64_PC32。 重 定位 一 个 使 用 32 位 PC 相对 地 址 的 引用 。 回 想 一 下 3. 6.3 节 ， 

一 个 PC 相对 地 址 就 是 距 程序 计数 器 (PC) 的 当前 运行 时 值 的 偏 移 量 。 当 CPU 执行 
一 条 使 用 PC 相对 寻 址 的 指令 时 ， 它 就 将 在 指令 中 编码 的 32 位 值 加 上 PC 的 当前 运 
行 时 值 ， 得 到 有 效 地 址 (如 call 指令 的 目标 )，PC 值 通常 是 下 一 条 指令 在 内 存 中 的 
地 址 。 

,@ R X86 64 32。 重 定位 一 个 使 用 32 位 绝对 地 址 的 引用 。 通 过 绝对 寻 址 ，CPU 直接 
使 用 在 指令 中 编码 的 32 位 值 作为 有 效 地 址 ， 不 需要 进一步 修改 。 

这 两 种 重 定位 类 型 支持 x86-64 小 型 代码 模型 (small code model) ， 该 模型 假设 可 执行 目标 
文件 中 的 代码 和 数据 的 总 体 大 小 小 于 2GB， 因 此 在 运行 时 可 以 用 32 位 PC 相对 地 址 来 访问 。 
GCC 默认 使 用 小 型 代码 模型 。 大 于 2GB 的 程序 可 以 用 -mcmodel=medium( 中 型 代码 模型 ) 
和 -mcmodel=large( 大 型 代码 模型 ) 标 志 来 编译 ， 不 过 在 此 我 们 不 讨论 这 些 模 型 。 


7.7.2 重 定 位 符号 引用 


图 7-10 展示 了 链接 器 的 重 定位 算法 的 伪 代 码 。 第 1 行 和 第 2 行 在 每 个 节 s 以 及 与 每 个 
节 相 关联 的 重 定位 条 目 x 上 和 迭代 执行 。 为 了 使 描述 具体 化 ， 假 设 每 个 节 s 是 一 个 字 节 数 
组 ， 每 个 重 定位 条 目 上 是 一 个 类 型 为 El1f64 Rela 的 结构 ， 如 图 7-9 中 的 定义 。 另 外 ， 还 
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假设 当 算法 运行 时 ， 链 接 器 已 经 为 每 个 节 ( 用 ADDR(s) 表 示 ) 和 每 个 符号 都 选择 了 运行 时 地 
址 (用 ADDR(r.symbol) 表 示 )。 第 3 行 计算 的 是 需要 被 重 定位 的 4 字 节 引用 的 数组 s 中 的 
地 址 。 如 果 这 个 引用 使 用 的 是 PC 相对 寻 址 ， 那 么 它 就 用 第 5 一 9 行 来 重 定 位 。 如 果 该 引用 
使 用 的 是 绝对 寻 址 ， 它 就 通过 第 11 一 13 行 来 重 定位 。 





1 foreach section s { 

5 foreach Telocation entry rt 

3 refptr = s + r.offset; /* ptr to reference to be relocated */ 
4 

5 /* Relocate a PC-relative reference */ 

6 if (r.type == R_X86_64_PC32) { 

交 refaddr = ADDR(s) + r.offset; /* ref's run-time address */ 
8 *refptr = (unsigned) (ADDR(r.symbol) + r.addend - refaddr) ; 
2 } 

10 

说 /* Relocate an absolute reference */ 

12 if (r.type == R_X86_64_32) 

13 *refptr = (unsigned) (ADDR(r.symbol) + r.addend); 








图 7-10” 重 定位 算法 


让 我 们 来 看 看 链接 器 如 何 用 这 个 算法 来 重 定位 图 7-1 示例 程序 中 的 引用 。 图 7-11 给 出 
了 (用 objdump-dx main.o 产生 的 )GNU OBJDUMP 工具 产生 的 main.o 的 反 汇 编 代 码 。 
— code/link/main-relo.d 
0000000000000000 <main>: 


1 

六 0: 48 83 ec 08 sub $0x8,%rsp 

3 4: be 02 00 00 00 moVv $0x2,%esi 

4 9: bf 00 00 00 00 mov $0Ox0,%edi Yedi = &array 

3 a: R_X86_64_32 array Relocation entry 
6 e: e8 00 00 00 00 callq 13 <main+0x13> sunm() 

a f: R_X86_64_PC32 sum-O0x4 Relocation entry 
8 13: 48 83 c4 08 add $0x8,%rsp 

a 17 c3 retq 


code/link/main-relo.d 
图 7-11 main.o 的 代码 和 重 定位 条 目 。 原 始 C 代码 在 图 7-1 中 


main 因数 引用 了 两 个 全 局 符号 : array 和 sum。 为 每 个 引用 ,汇编 器 产生 一 个 重 定 
位 条 目 ， 显 示 在 引用 的 后 面 一 行 上 . 这些 重 定位 条 目 告诉 链接 器 对 sum 的 引用 要 使 用 32 
位 PC 相对 地 址 进行 重 定 位 ， 而 对 array 的 引用 要 使 用 32 位 绝对 地 址 进行 重 定 位 。 接 下 
来 两 节 会 详细 介绍 链接 器 是 如 何 重 定位 这 些 引 用 的 。 

1. 重 定位 PC 相对 引用 

图 7-11 的 第 6 行 中 ， 函 数 main 调用 sum 函数 ，sum 函数 是 在 模块 sum.o 中 定义 的 。 





日 ”回想 一 下 ， 重 定位 条 目 和 指令 实际 上 存放 在 目标 文件 的 不 同 节 中 。 为 了 方便 ，OBJDUMP 工具 把 它们 显示 
在 一 起 。 
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call 指令 开始 于 节 偏 移 0xe 的 地 方 ， 包括 1 字 节 的 操作 码 0xe8， 后 面 跟 着 的 是 对 目标 
sum 的 32 位 PC 相对 引用 的 占 位 符 。 
相应 的 重 定 位 条 目 x 由 4 个 字段 组 成 : 


r.offset = Oxf 
r.symbol = sum 
r.type = R_X86_64_PC32 
r.addend = -4 


这 些 字 段 告诉 链接 器 修改 开始 于 偏 移 量 0xf 处 的 32 位 PC 相对 引用 ， 这 样 在 运行 时 它 
会 指向 sum 例 程 。 现 在 ， 假 设 链接 器 已 经 确定 

ADDR(s) = ADDR(.text) = 0x4004d0 
和 

ADDR(CT .Symbol) = ADDR(sum) = 0x4004e8 

使 用 图 7-10 中 的 算法 ， 链接 器 首先 计算 出 引用 的 运行 时 地 址 (第 7 行 ): 

refaddr = ADDR(s) + r.offset 

= Ox4004d0 + Oxf 

= Ox4004df 
然后 ， 更 新 该 引用 ， 使 得 它 在 运行 时 指向 sum 程序 (第 8 行 ): 


(unsigned) (ADDR(r.symbol) + r.addend - refaddr) 
(unsigned) (0x4004e8 + (-4) — Ox4004df) 
(unsigned) (0x5) 


在 得 到 的 可 执行 目标 文件 中 ，call 指令 有 如 下 的 重 定位 的 形式 : 
4004de: ee8 05 00 00 00 callq 4004e8 <sum> sum() 


在 运行 时 ，call 指令 将 存放 在 地 址 0x4004de 处 。 当 CPU 执行 call 指令 时 ，PC 的 
值 为 60x4004e3， 即 紧 随 在 call 指令 之 后 的 指令 的 地 址 。 为 了 执行 这 条 指令 ，CPU 执行 
以 下 的 步骤 : 

1) 将 PC 压 入 栈 中 

2) PC < PC 十 0x5 王 0x4004e3 十 0x5 一 0x4004e8 


因此 ， 要 执行 的 下 一 条 指令 就 是 sum 例 程 的 第 一 条 指令 ， 这 当然 就 是 我 们 想 要 的 ! 
. 2. 重 定位 绝对 引用 
重 定位 绝对 引用 相当 简单 。 例 如 ， 图 7-11 的 第 4 行 中 ，mov 指令 将 array 的 地 址 (一 
“个 32 位 立即 数值 ) 复 制 到 寄存 器 sedi 中 。mov 指令 开始 于 节 偏 移 量 0x9 的 位 置 ， 包 括 1 字 
“节操 作 码 0xbf， 后 面 跟着 对 array 的 32 位 绝对 引用 的 占 位 符 。 
对 应 的 占 位 符 条 目 + 包括 4 个 字段 : 


*refptr 


r.offset = Oxa 
r.symbol = array 
r.type = R_X86_64_32 
r.addend = 0 


“array 的 第 一 个 字 节 。 现 在 ， 假 设 链接 器 已 经 确定 
ADDR(r.symbol) = ADDR(array) = 0x601018 
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链接 器 使 用 图 7-10 中 算法 的 第 13 行 修改 了 引用 : 


*refptr = 


(unsigned) (ADDR(r.symbol) + r.addend) 
(unsigned) (0x601018 
(unsigned) (0x601018) 


+ 0) 


在 得 到 的 可 执行 目标 文件 中 ， 该 引用 有 下 面 的 重 定位 形式 : 


4004d9 


: bf 18 10 60 00 


mov $0Ox601018,%edi 


Yedi = garray 


综合 到 一 起 ， 图 7-12 给 出 了 最 终 可 执行 目标 文件 中 已 重 定位 的 .text 节 和 .data 节 。 在 加 
载 的 时 候 ， 加 载 器 会 把 这 些 节 中 的 字 节 直接 复制 到 内 存 ， 不 再 进行 任何 修改 地 执行 这 些 指令 。 








1 00000000004004d0 <main> : 
已 4004d0: 48 83 ec 08 sub $0x8,%rsp 
3 4004d4: be 02 00 00 00 moV $Ox2,%esi 
4 4004d9: bf 18 10 60 00 mov $0x601018,%edi Kedi = &array 
5 4004de: e8 05 00 00 00 callq 4004e8 <sum> sum() 
6 4004e3: 48 83 c4 08 add $0x8,%rsp 
7 4004e7: c3 retq 
8 00000000004004e8 <sum>: 
9 4004e8: b8 00 00 00 00 mov $0x0 ,heax 
10 4004ed: ba 00 00 00 00 moV $Ox0 ,yedx 
11 4004f2: eb 09 jmp 4004fd <sum+0x15> 
12 4004f4: 48 63 ca movslq %edx,%rcx 
得 4004f7: 03 04 8f add (%rdi,%rcx,4) ,heax 
14 4004fa: 83 c2 01 add $Oxd1 , hedx 
15 4004fd: 39 f2 cmp Wesi,%edx 
16 4004ff: 7c f3 jl 4004f4 <sum+O0xc> 
二 400501: f3 c3 repz retq 
a) 已 重 定 位 的 .text 节 
1 0000000000601018 <array>: 
p24 601018: 01 00 00 00 02 00 00 00 
b) 已 重 定位 的 .data 节 
图 7-12 可 执行 文件 prog 的 已 重 定位 的 .text 节 和 .data 节 。 原 始 的 C 代码 在 图 7-1 中 











A. 第 5 行 中 对 sum 的 重 定位 引用 的 十 六 进 制 地 址 是 多 少 ? 
B. 第 5 行 中 对 sum 的 重 定位 引用 的 十 六 进 制 值 是 多 少 ? 
区 SN 练习 题 7.5 考虑 目标 文件 m.o 中 对 swap 函数 的 调用 (图 7-5) 。 


9 : e8 00 00 00 00 


它 的 重 定位 条 目 如 下 : 
r.offset = Oxa 

r.symbol = swap 

r.type = R_X86_64_PC32 


r.addend = -4 


现在 假设 链接 器 将 m.o 中 的 . 


callq ee <maint+Oxe> swap() 


text 重 定位 到 地 址 0x4004d0， 将 swap 重 定位 到 地 坦 
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0x4004e8。 那 么 callq 指令 中 对 swap 的 重 定位 引用 的 值 是 什么 ? 


7.8 可 执行 目标 文件 


我 们 已 经 看 到 链接 器 如 何 将 多 个 目标 文件 合并 成 一 个 可 执行 目标 文件 。 我 们 的 示例 C 
程序 ， 开 始 时 是 一 组 ASCII 文本 文件 ， 现 在 已 经 被 转化 为 一 个 二 进 制 文件 ， 且 这 个 二 进 制 
文件 包含 加 载 程序 到 内 存 并 运行 它 所 需 的 所 有 信息 。 图 7-13 概括 了 一 个 典型 的 ELF 可 执 
行文 件 中 的 各 类 信息 。 


0 

将 连续 的 文件 

节 映 射 到 运行 { 段 头 部 表 

时 内 在 只 读 内 存 区 (代码 了) 
| as ca 


.bss 


ee 
line 和 调试 信息 
i 
2 本 
文件 的 节 《 节 头 部 表 
图 7-13 典型 的 ELF 可 执行 目标 文件 


可 执行 目标 文件 的 格式 类 似 于 可 重 定 位 目标 文件 的 格式 。ELF 头 描述 文件 的 总 体格 
式 。 它 还 包括 程序 的 入 口 点 (entry point)， 也 就 是 当 程 序 运 行 时 要 执行 的 第 一 条 指令 的 地 
址 。 .text、.rodata 和 .data 节 与 可 重 定位 目标 文件 中 的 节 是 相似 的 ， 除 了 这 些 节 已 经 被 
重 定位 到 它们 最 终 的 运行 时 内 存 地 址 以 外 。.init 节 定 义 了 一 个 小 函数 ， 叫 做 init， 程 序 
的 初始 化 代码 会 调用 它 。 因 为 可 执行 文件 是 完全 链接 的 (已 被 重 定位 )， 所 以 它 不 再 需要 . 
zel 节 。 

ELF 可 执行 文件 被 设计 得 很 容易 加 载 到 内 存 ， 可 执行 文件 的 连续 的 片 (chunk) 被 映射 
到 连续 的 内 存 段 。 程 序 头 部 表 (program header table) 描 述 了 这 种 映射 关系 。 图 7-14 展示 
了 可 执行 文件 prog 的 程序 头 部 表 ， 是 由 OBJDUMP 显示 的 。 





code/link/prog-exe.d 


Read-only code segment 
1 LOAD off Ox0000000000000000 vaddr 0x0000000000400000 paddr 0x0000000000400000 align 2**21 
2 filesz 0x000000000000069c memsz 0x000000000000069c flags Ir-x 


Read/write data segment 
3 LOAD off Ox0000000000000df8 vaddr 0x0000000000600df8 paddr 0x0000000000600df8 align 2**21 
4 filesz Ox0000000000000228 memsz 0x0000000000000230 flags rw- 


code/link/prog-exe.d 
图 7-14 示例 可 执行 文件 prog 的 程序 头 部 表 


off; 目标 文件 中 的 偏 移 ; vaddr/paddr: 内 存 地 址 ; align: 对 齐 要 求 ; filesz: 目标 文件 中 的 段 大 小 ; 
memsz: 内 存 中 的 段 大 小 ; flags: 运行 时 访问 权限 。 


从 程序 头 部 表 ， 我 们 会 看 到 根据 可 执行 目标 文件 的 内 容 初始 化 两 个 内 存 段 。 第 1 行 和 
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第 2 行 告 诉 我 们 第 一 个 段 ( 代 码 段 ) 有 读 / 执 行 访 问 权 限 ， 开 始 于 内 存 地 址 0x400000 处 ， 总 
共 的 内 存 大 小 是 0x69c 字 节 ， 并 且 被 初始 化 为 可 执行 目标 文件 的 头 0x69c 个 字 节 ， 其 中 包 
括 ELF 头 、 程 序 头 部 表 以 及 .init、.text 和 .rodata 节 。 

第 3 行 和 第 4 行 告诉 我 们 第 二 个 段 ( 数 据 段 ) 有 读 / 写 访问 权限 ， 开 始 于 内 存 地 址 
0x600df8 处 ， 总 的 内 存 大 小 为 0x230 字 节 ， 并 用 从 目标 文件 中 偏 移 0xdf8 处 开始 的 
.data 节 中 的 0x228 个 字 节 初始 化 。 该 段 中 剩 下 的 8 个 字 节 对 应 于 运行 时 将 被 初始 化 为 0 
的 .bss 数据 。 

对 于 任何 段 s， 链 接 器 必须 选择 一 个 起 始 地 址 vaddqr， 使 得 


vaddr mod align = off mod align 


这 里 ，off 是 目标 文件 中 段 的 第 一 个 节 的 偏 移 量 ，align 是 程序 头 部 中 指定 的 对 齐 (22 = 
0x200000)。 例 如 ， 图 7-14 中 的 数据 段 中 
vaddr mod align = 0x600df8 mod 0x200000 = 0xdf8 


以 及 
off mod align = 0xdf8 mod 0x200000 = 0xdf8 


这 个 对 齐 要 求 是 一 种 优化 ， 使 得 当 程 序 执行 时 ， 目 标 文件 中 的 段 能 够 很 有 效率 地 传送 到 内 
存 中 。 原 因 有 点 儿 微 妙 ， 在 于 虚拟 内 存 的 组 织 方 式 ， 它 被 组 织 成 一 些 很 大 的 、 连 续 的 、 大 
小 为 2 的 害 的 字 节 片 。 第 9 章 中 你 会 学 习 到 虚拟 内 存 的 知识 。 


7.9 加 载 可 执行 目标 文件 
要 运行 可 执行 目标 文件 prog， 我 们 可 以 在 Linux shell 的 命令 行 中 输入 它 的 名 字 : 
linux> ./prog 


因为 prog 不 是 一 个 内 置 的 shell 命令 ， 所 以 shell 会 认为 prog 是 一 个 可 执行 目标 文 
件 ， 通 过 调用 某 个 驻 留 在 存储 器 中 称 为 加 载 器 (loader) 的 操作 系统 代码 来 运行 它 。 任 何 
Linux 程序 都 可 以 通过 调用 execve 函数 来 调用 加 载 器 ， 我们 将 在 8. 4.6 节 中 详细 描述 这 
个 函数 。 加 载 器 将 可 执行 目标 文件 中 的 代码 和 数据 从 磁盘 复制 到 内 存 中 ， 然 后 通过 跳 转 到 程 
序 的 第 一 条 指令 或 入 口 点 来 运行 该 程序 。 这 个 将 程序 复制 到 内 存 并 运行 的 过 程 叫做 加 载 。 

每 个 Linux 程序 都 有 一 个 运行 时 内 存 映像 ， 类 似 于 图 7-15 中 所 示 。 在 Linux x86-64 
系统 中 ， 代 码 段 总 是 从 地 址 0x400000 处 开始 ， 后 面 是 数据 段 。 运 行 时 堆 在 数据 段 之 后 ， 
通过 调用 malloc 库 往 上 增长 。( 我 们 将 在 9.9 节 中 详细 描述 malloc 和 堆 。) 堆 后 面 的 区 域 
是 为 共享 模块 保留 的 。 用 户 栈 总 是 从 最 大 的 合法 用 户 地 址 (2” 一 1) 开始 ， 向 较 小 内 存 地 址 
增长 。 栈 上 的 区 域 ， 从 地 址 2 开始 ， 是 为 内 核 (kernel) 中 的 代码 和 数据 保留 的 ， 所 谓 内 核 
就 是 操作 系统 驻 留 在 内 存 的 部 分 。 

为 了 简洁 ， 我 们 把 堆 、 数 据 和 代码 段 画 得 彼此 相 邻 ， 并 且 把 栈 顶 放 在 了 最 大 的 合法 用 
户 地 址 处 。 实 际 上 ， 由 于 .data 段 有 对 齐 要 求 ( 见 7.8 节 )， 所 以 代码 段 和 数据 段 之 间 是 有 
间 辽 的 。 同 时， 在 分 配 栈 、 共 享 库 和 堆 段 运行 时 地 址 的 时 候 ， 链 接 器 还 会 使 用 地 址 空间 布 
局 随机 化 (ASLR， 参 见 3. 10.4 节 )。 虽 然 每 次 程序 运行 时 这 些 区 域 的 地 址 都 会 改变 ， 它 们 
的 相对 位 置 是 不 变 的 。 

当 加 载 器 运行 时 ， 它 创建 类 似 于 图 7-15 所 示 的 内 存 映 像 。 在 程序 头 部 表 的 引导 下 ， 
加 载 器 将 可 执行 文件 的 片 (chunk) 复 制 到 代码 段 和 数据 段 。 接 下 来 ， 加 载 器 跳 转 到 程序 的 
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人 口 点 ， 也 就 是 _start 函数 的 地 址 。 这 个 函数 是 在 系统 目标 文件 ctrl.o 中 定义 的 ， 对 所 
有 的 C 程序 都 是 一 样 的 。_start 函数 调用 系统 启动 函数 ”1libc start _main， 该 函数 定 
义 在 libc.so 中 。 它 初始 化 执行 环境 ， 调 用 用 户 层 的 main 函数 ， 处 理 main 函数 的 返回 
值 ， 并 且 在 需要 的 时 候 把 控制 返回 给 内 核 。 





对 用 户 代码 不 可 
见 的 内 存 


和 学 


共享 库 的 内 存 映射 区 域 





i 


Ee 


EE <4— brk 
运行 时 堆 
(由 malloc 创 建 ) 
( .data, .bss) 从 可 执行 文件 中 加 载 


只 读 代码 段 
(init, sext,. -rodata) 
0x400000 - 





6 从 


图 7-15 Linux x86-64 运行 时 内 存 映像 。 没 有 展示 出 由 于 段 对 齐 要 求 和 地 址 空 
间 布 局 随机 化 (ASLR) 造 成 的 空 阶 。 区 域 大 小 不 成 比例 


国 柯 加 载 器 实际 是 如 何 工作 的 ? 

我 们 对 于 加 载 的 描述 从 概念 上 来 说 是 正确 的 ， 但 也 不 是 完全 准确 ， 这 是 有 意 为 之 。 
要 理解 加 载 实 际 是 如 何 工作 的 ， 你 必须 理解 进程 、 虚 拟 内 存 和 内 存 映射 的 概念 ， 这 些 我 
们 还 没有 加 以 讨论 。 在 后 面 第 8 章 和 第 9 章 中 遇 到 这 些 概念 时 ， 我 们 将 重新 回 到 加 载 的 
问题 上 ， 并 逐渐 向 你 揭 开 它 的 神秘 面纱 。 

对 于 不 够 有 耐心 的 读者 ， 下 面 是 关于 加 载 实 际 是 如 何 工作 的 一 个 概述 : Linux 系统 
中 的 每 个 程序 都 运行 在 一 个 进程 上 下 文中 ， 有 自己 的 虚拟 地 址 空间 。 当 shell 运行 一 个 
程序 时 ， 父 shell 进程 生成 一 个 子 进程 ， 它 是 父 进 程 的 一 个 复制 。 子 进程 通过 execve 系 
统 调 用 启动 加 载 器 。 加 载 器 删除 子 进程 现 有 的 虚拟 内 存 段 ， 并 创建 一 组 新 的 代码 、 数 
据 、 堆 和 栈 段 。 新 的 栈 和 堆 段 被 初始 化 为 替 。 通 过 将 虚拟 地 址 空间 中 的 页 映射 到 可 执行 
文件 的 页 大 小 的 片 (chunk)， 新 的 代码 和 数据 段 被 初始 化 为 可 执行 文件 的 内 容 。 最 后 ， 
加 载 器 跳 转 到 _start 地 址 ， 它 最 终 会 调用 应 用 程序 的 main 函数 。 除 了 一 些 头 部 信息 ， 在 
加 载 过 程 中 没有 任何 从 磁盘 到 内 存 的 数据 复制 。 直 到 CPU 引用 一 个 被 映射 的 虚拟 页 时 才 
会 进行 复制 ， 此 时 ， 操 作 系 统 利 用 它 的 页 面 调度 机 制 自动 将 页 面 从 磁盘 传送 到 内 存 。 


7. 10 动态 链接 共享 库 

我 们 在 7. 6. 2 节 中 研究 的 静态 库 解决 了 许多 关于 如 何 让 大 量 相关 函数 对 应 用 程序 可 用 
的 问题 。 然 而 ， 静 态 库 仍然 有 一 些 明显 的 缺点 。 静 态 库 和 所 有 的 软件 一 样 ， 需 要 定期 维护 
和 更 新 。 如 果 应 用 程序 员 想 要 使 用 一 个 库 的 最 新 版 本 ， 他 们 必须 以 某 种 方式 了 解 到 该 库 的 
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更 新 情况 ， 然 后 显 式 地 将 他 们 的 程序 与 更 新 了 的 库 重 新 链接 。 

另 一 个 问题 是 几乎 每 个 C 程序 都 使 用 标准 I/O 函数 ， 比 如 printf 和 scanf。 在 运行 
时 ,这些 函数 的 代码 会 被 复制 到 每 个 运行 进程 的 文本 段 中 。 在 一 个 运行 上 百 个 进程 的 典型 
系统 上 ， 这 将 是 对 稀缺 的 内 存 系统 资源 的 极 大 浪费 。( 内 存 的 一 个 有 趣 属性 就 是 不 论 系统 
的 内 存 有 多 大 ， 它 总 是 一 种 稀缺 资源 。 磁 盘 空 间 和 厨房 的 垃圾 桶 同样 有 这 种 属性 。) 

共享 库 (shared library) 是 致力 于 解决 静态 库 缺 陷 的 一 个 现代 创新 产物 。 共 享 库 是 一 个 
目标 模块 ， 在 运行 或 加 载 时 ， 可 以 加 载 到 任意 的 内 存 地 址 ， 并 和 一 个 在 内 存 中 的 程序 链接 
起 来 。 这 个 过 程 称 为 动态 链接 (dynamic linking)， 是 由 一 个 叫做 动态 链接 器 (dynamic linker) 
的 程序 来 执行 的 。 共 享 库 也 称 为 共享 目标 (shared object)， 在 Linux 系统 中 通常 用 .so 后 缀 
来 表示 。 微 软 的 操作 系统 大 量 地 使 用 了 共享 库 ， 它 们 称 为 DLL( 动 态 链接 库 ) 。 








共享 库 是 以 两 种 不 同 的 方式 来 “ 共 main2.c vector.h 
享 ” 的 。 首 先 ， 在 任何 给 定 的 文件 系统 
中 ， 对 于 一 个 库 只 有 一 个 .so 文件 。 所 a | 
有 引用 该 库 的 可 执行 目标 文件 共享 这 个 . 一 i 
so 文件 中 的 代码 和 数据 ， 而 不 是 像 静 态 。 ”可 重 定位 目标 文件 main2.o 重 定位 和 
库 的 内 容 那 样 被 复制 和 骨 入 到 引用 它们 | 符号 表 信息 
的 可 执行 的 文件 中 。 其 次 ， 在 内 存 中 ， | 
一 个 共享 库 的 .text 节 的 一 个 副本 可 以 
被 不 同 的 正在 运行 的 进程 共享 。 在 第 9 人 prog21 
章 我 们 学 习 虚 拟 内 存 时 将 更 加 详细 地 讨 
论 这 个 问题 。 加 载 器 ow 

图 7-16 概括 了 图 7-7 中 示例 程序 的 LSXSSe libvector.so 
动态 链接 过 程 。 为 了 构造 图 7-6 中 示例 | temo 
向 量 例 程 的 共享 库 Libvector.so， 我 内 存 中 完全 链接 
们 调用 编译 器 驱动 程序 ， 给 编译 器 和 链 的 可 执行 文件 二 
接 器 如 下 特殊 指令 : 图 7-16 动态 链接 共享 库 


linux> gcc -Shared -fpic -0 libvector.so addvec.c multvec.c 


-fpic 选 项 指示 编译 器 生成 与 位 置 无 关 的 代码 (下 一 节 将 详细 讨论 这 个 问题 )。 
-shared 选 项 指示 链接 器 创建 一 个 共享 的 目标 文件 。 一 旦 创建 了 这 个 库 ， 随 后 就 要 将 它 链 
接 到 图 7-7 的 示例 程序 中 : 


linux> gcc -0 Prog21 main2.c ./libvector.so 


这 样 就 创建 了 一 个 可 执行 目标 文件 prog21， 而 此 文件 的 形式 使 得 它 在 运行 时 可 以 和 
libvector .so 链接 。 基 本 的 思路 是 当 创 建 可 执行 文件 时 ， 静 态 执行 一 些 链 接 ， 然 后 在 程 
序 加 载 时 ， 动 态 完成 链接 过 程 。 认 识 到 这 一 点 是 很 重要 的 : 此 时 ,没有 任何 libvector.so 
的 代码 和 数据 节 真 的 被 复制 到 可 执行 文件 prog21 中 。 反 之 ， 链 接 器 复制 了 一 些 重 定位 和 
符号 表 信息 ， 它 们 使 得 运行 时 可 以 解析 对 1ibvector .so 中 代码 和 数据 的 引用 。 

当 加 载 器 加 载 和 运行 可 执行 文件 prog21 时 ， 它 利用 7. 9 节 中 讨论 过 的 技术 ， 加 载 部 分 
链接 的 可 执行 文件 prog21。 接 着 ， 它 注意 到 prog21 包含 一 个 .interp 节 ， 这 一 节 包含 动态 
链接 器 的 路 径 名 ， 动 态 链接 器 本 身 就 是 一 个 共享 目标 (如 在 Linux 系统 上 的 1dq-1inux.so)， 
加 载 器 不 会 像 它 通常 所 做 地 那样 将 控制 传递 给 应 用 ， 而 是 加 载 和 运行 这 个 动态 链接 器 。 然 
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动态 链接 器 通过 执行 下 面 的 重 定位 完成 链接 任务 : 

e 重 定 位 1ibc.so 的 文本 和 数据 到 某 个 内 存 段 。 

e@ 重 定位 1ibvector.so 的 文本 和 数据 到 另 一 个 内 存 段 。 

ee 重 定位 prog21 中 所 有 对 由 Libc.so 和 1libvector.so 定义 的 符号 的 引用 。 

最 后 ， 动 态 链 接 器 将 控制 传递 给 应 用 程序 。 从 这 个 时 刻 开 始 ， 共 享 库 的 位 置 就 固定 
了 ， 并 且 在 程序 执行 的 过 程 中 都 不 会 改变 。 


7.11 从 应 用 程序 Wepre trite 


到 目前 为 止 ， 我 们 已 经 讨论 了 在 应 用 程序 被 加 载 后 执行 前 时 ， 动 态 链 接 器 加 载 和 链接 
共享 库 的 情景 。 然 而 ， 应 用 程序 还 可 生 nn 
库 ， 而 无 需 在 编译 时 将 那些 库 链 接 到 应 用 中 。 

动态 链接 是 一 项 强大 有 用 的 技术 。 下 面 是 一 些 现实 志 界 中 的 例子 : 

@ 分 发 软件 。 微 软 Windows 应 用 的 开发 者 常常 利用 共享 库 来 分 发 软件 更 新 。 他 们 生 
成 一 个 共享 库 的 新 版 本 ， 然 后 用 户 可 以 下 载 ， 并 用 它 替 代 当 前 的 版 本 。 下 一 次 他 们 
运行 应 用 程序 时 ， 应 用 将 自动 链接 和 加 载 新 的 共享 库 。 

@ 构建 高 性 能 Web 服务 器 。 许 多 Web 服务 器 生成 动态 内 容 ， 比 如 个 性 化 的 Web 页 
面 、 账 户 余额 和 广告 标语 。 早 期 的 Web 服务 器 通过 使 用 fork 和 execve 创建 一 个 
子 进程 ， 并 在 该 子 进程 的 上 下 文中 运行 CGI 程序 来 生成 动态 内 容 。 然 而 ， 现 代 高 性 
能 的 Web 服务 器 可 以 使 用 基于 动态 链接 的 更 有 效 和 完善 的 方法 来 生成 动态 内 容 。 

其 思路 是 将 每 个 生成 动态 内 容 的 函数 打包 在 共享 库 中 。 当 一 个 来 自 Web 浏览 器 的 请 

求 到 达 时 ， 服 务 器 动态 地 加 载 和 链接 适当 的 函数 ， 然 后 直接 调用 它 ， 而 不 是 使 用 fork 和 
execve 在 子 进程 的 上 下 文中 运行 函数 。 函 数 会 一 直 缓 存在 服务 器 的 地 址 空间 中 ， 所 以 只 

要 一 个 简单 的 函数 调用 的 开销 就 可 以 处 理 随后 的 请 求 了 。 这 对 一 个 繁忙 的 网 站 来 说 是 有 很 
大 影响 的 。 更 进一步 地 说 ， 在 运行 时 无 需 停止 服务 器 ， 就 可 以 更 新 已 存在 的 函数 ， 以 及 添 


> 


”加 新 的 函数 。 


Linux 系统 为 动态 链接 器 提供 了 一 个 简单 的 接口 ， 人 允许 应 用 程序 在 运行 时 加 载 和 链接 
共享 库 。 





#include <dlfcn.h> 


void *dlopen(const char *filename, int flag); 
返回 : 车 成 功 则 为 指向 句柄 的 指针 ， 若 出 错 则 为 NULL。 








dlopen 函数 加 载 和 链接 共享 库 filename。 用 已 用 带 RTLD GLOBAL 选项 打开 了 的 库 
解析 filename 中 的 外 部 符号 。 如 果 当 前 可 执行 文件 是 带 -rdynamic 选项 编译 的 ， 那 么 对 
符号 解析 而 言 ， 它 的 全 局 符号 也 是 可 用 的 。flag 参数 必须 要 么 包括 RTLD_NOW， 该 标志 告 
诉 链接 器 立即 解析 对 外 部 符号 的 引用 ， 要 人 么 包括 RTLD_ LA2Y 标志 ， 该 标志 指示 链接 器 推 
迟 符号 解析 直到 执行 来 自 库 中 的 代码 。 这 两 个 值 中 的 任意 一 个 都 可 以 和 RTLD_GLOBAL 标 
志 取 或 。 








#include <dlfcn.h> 


void *dlsym(void *handle, char *symbol); 
返回 : 若 成 功 则 为 指向 符号 的 指针 ， 若 出 错 则 为 NULL。 
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dlsym 函数 的 输入 是 一 个 指向 前 面 已 经 打开 了 的 共享 库 的 句柄 和 一 个 symbol 名 字 ， 
如 果 该 符号 存在 ， 就 返回 符号 的 地 址 ， 否 则 返回 NULL。 





#include <dlfcn.h> 


int dlclose (void *handle) ; 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 








如 果 没 有 其 他 共享 库 还 在 使 用 这 个 共享 库 ，dlclose 函数 就 分 载 该 共享 库 。 





#include <dlifcn.h> 


const char *dlerror(void); 
返回 : 如 果 前 面 对 dlopen、dlsym 或 dlclose 的 调用 失败 ， 
则 为 错误 消息 ， 如 果 前 面 的 调用 成 功 ， 则 为 NULL。 








dlerror 图 数 返回 一 个 字符 串 ， 它 描述 的 是 调用 dlopen、dlsym 或 者 dlclose 函数 
时 发 生 的 最 近 的 错误 ， 如 果 没 有 错误 发 生 ， 就 返回 NULL。 

图 7-17 展示 了 如 何 利 用 这 个 接口 动态 链接 我 们 的 1ibvector.so 共享 库 ， 然 后 调用 
它 的 addvec 例 程 。 要 编译 这 个 程序 ， 我 们 将 以 下 面 的 方式 调用 GCC: 


linux> gcc -rdynamic -0 prog2r dll.c -1dl 


code/link/dll.c 
1 #include <stdio.h> 
2 #include <stdlib.h> 
3 #include <dlfcn.h> 
4 
5 int x[2] = {1, 2}; 
i = 43 时; 
元 int [2]s 
8 
9 int main() 
广 荆 
11 void *handle; 
12 void (*addvec) (int *, int *, int *, int); 
13 char *error; 
14 
入 /* Dynamically load the shared library containing addvec() */ 
16 handle = dlopen("./libvector.so", RTLD_LAZY); 
17 if (!handle) { 
18 fprintf(stderr, "%s\n", dlerror()); 
19 exit (1); 
20 上 
| 
2 /* Get a pointer to the addvec() function we just loaded */ 
23 addvec = dlsym(handle, "addvec"); 
24 if ((error = dlerror()) != NULL) { 
25 fprintf(stderr, "%s\n'", error); 


图 7-17 示例 程序 3。 在 运行 时 动态 加 载 和 链接 共享 库 lijbvector .so 





26 exit (1); 

27 上 

28 

29 /* Now we can call addvec() just like any other function */ 
30 addvec(x, y, ZzZ, 2); 

31 phiitfi("z a [Xa WalNa", z[0], zl1]); 

32 

33 /* Unload the shared library */ 

34 if (dlclose(handle) < 0) { 

35 fprintf(stderr, "%s\n", dlerror()); 
36 exit (1); 

ey } 

38 return 0; 

39 } 


code/link/dll.c 





| 旁 注 | 共享 库 和 Java 本 地 接口 

Java 定义 了 一 个 标准 调用 规则 ， 叫 做 Java 本 地 接口 (Java Native Interface，JNI)， 它 允 
许 Java 程序 调用 “本 地 的 ”C 和 C++ 兄 数 。JNI 的 基本 思想 是 将 本 地 CC 通 数 (如 foo) 编 译 
到 一 个 共享 库 中 (如 foo.so)。 当 一 个 正在 运行 的 Java 程序 试图 调用 函数 foo 时 ，Java 解 
释 器 利用 dlopen 接口 (或 者 与 其 类 似 的 接口 ) 动 态 链接 和 加 载 foo.so， 然 后 再 调用 foo。 


7. 12 位 置 无 关 代 码 

共享 库 的 一 个 主要 目的 就 是 允许 多 个 正在 运行 的 进程 共享 内 存 中 相同 的 库 代码 ， 因 而 
0 那么 ， 多 个 进程 是 如 何 共享 程序 的 一 个 副本 的 呢 ? 一 种 方法 是 给 每 

共享 库 分 配 一 个 事先 预备 的 专用 的 地 址 空间 片 ， 然 后 要 求 加 载 器 总 是 在 这 个 地 址 加 载 共 
ee 虽然 这 种 方法 很 简单 ， 但 是 它 也 造成 了 一 些 严重 的 问题 。 它 对 地 址 空间 的 使 用 效率 
不 高 ， 因 为 即使 一 个 进程 不 使 用 这 个 库 ， 那 部 分 空间 还 是 会 被 分 配 出 来 。 它 也 难以 管理 。 
ee 每 次 当 一 个 库 修 改 了 之 后 ， 我 们 必须 确认 已 分 配给 它 的 片 还 

合 它 的 大 小 。 如 果 不 适合 了 ， 必 须 找 一 个 新 的 片 。 并 且 ， 如 果 创 建 了 一 个 新 的 库 ， 我 们 
0 它 寻 找 空 间 。 随 着 时 间 的 进展 ， 假 设 在 一 个 系统 中 有 了 成 百 个 库 和 库 的 各 个 版 本 
库 ， 就 很 难 避 免 地 址 空间 分 裂 成 大 量 小 的 、 未 使 用 而 又 不 再 能 使 用 的 小 洞 。 更 糟 的 是 ， 对 
每 个 系统 而 言 ， 库 在 内 存 中 的 分 配 都 是 不 同 的 ， 这 就 引起 了 更 多 令 人 头痛 的 管理 问题 。 

要 避免 这 些 问 题 ， 现 代 系 统 以 这 样 一 种 方式 编译 共享 模块 的 代码 段 ， 使 得 可 以 把 它们 
加 载 到 内 存 的 任何 位 置 而 无 需 链接 器 修改 。 使 用 这 种 方法 ,无限 多 个 进程 可 以 共享 一 个 共 
享 模块 的 代码 段 的 单一 副本 。 当然， 每 个 进程 仍然 会 有 它 自 己 的 读 / 写 数据 块 。) 

可 以 加 载 而 无 需 重 定 位 的 代码 称 为 位 置 无 关 代 码 (Position-Independent Code，PIC) 。 
用 户 对 GCC 使 用 -fpic 选项 指示 GNU 编译 系统 生成 PIC 代码 。 共 享 库 的 编译 必须 总 是 
使 用 该 选项 。 

在 一 个 x86-64 系统 中 ， 对 同一 个 目标 模块 中 符号 的 引用 是 不 需要 特殊 处 理 使 之 成 为 
PIC。 可 以 用 PC 相对 寻 址 来 编译 这 些 引用 ， 构 造 目 标 文件 时 由 静态 链接 器 重 定位 。 然 而 ， 对 

共享 模块 定义 的 外 部 过 程 和 对 全 局 变量 的 引用 需要 一 些 特 殊 的 技巧 ， 接 下 来 我 们 会 谈 到 。 





490 第 二 部 分 在 系统 上 运行 程序 





1. PIC 数据 引用 

编译 器 通过 运用 以 下 这 个 有 趣 的 事实 来 生成 对 全 局 变量 的 PIC 引用 : 无 论 我 们 在 内 存 
中 的 何 处 加 载 一 个 目标 模块 (包括 共享 目标 模块 )， 数 据 段 与 代码 段 的 距离 总 是 保持 不 变 
因此 ， 代 码 段 中 任何 指令 和 数据 段 中 任何 变量 之 间 的 距离 都 是 一 个 运行 时 常量 ， 与 代码 段 
和 数据 段 的 绝对 内 存 位 置 是 无 关 的 。 

想 要 生成 对 全 局 变量 PIC 引用 的 编译 器 利用 了 这 个 事实 ， 它 在 数据 段 开始 的 地 方 创建 
了 一 个 表 ， 叫 做 全 局 偏 移 量 表 (Global Offset Table，GOT)。 在 GOT 中 ， 每 个 被 这 个 目 
标 模 块 引 用 的 全 局 数据 目标 (过 程 或 全 局 变量 ) 都 有 一 个 8 字 节 和 条目。 编译 器 还 为 GOT 中 
每 个 条 目 生 成 一 个 重 定位 记录 。 在 加 载 时 ， 动 态 链 接 器 会 重 定位 GOT 中 的 每 个 条 目 ， 使 
得 它 包含 目标 的 正确 的 绝对 地 址 。 每 个 引用 全 局 目标 的 目标 模块 都 有 自己 的 GOT。 

图 7-18 展示 了 示例 Libvector .so 共享 模块 的 GOT。aqdqvec 例 程 通过 GOTL3] 间 接 
地 加 载 全 局 变量 addcnt 的 地 址 ， 然 后 把 addcnt 在 内 存 中 加 1。 这 里 的 关键 思想 是 对 
GOTL3j 的 PC 相对 引用 中 的 偏 移 量 是 一 个 运行 时 常量 。 


数据 段 
全 局 偏 移 量 表 (GOT) 


OO 
GOTIL]E a 








SOP La 
GOT[3]: &addcnt 





运行 时 GOT[3] 和 
add1 指 令 之 间 的 
固定 距离 是 代码 段 


0x2008b9 Be 
A 


mov 0x2008b9(%rip),% rax # %Srax=*GOT[3]=&addcnt 
addl1l $0x1, (Srax) # addcnt++ 








图 7-18 用 GOT 引 用 全 局 变量 。1ibvector.so 中 的 addvec 例 程 通过 libvector.so 的 
GOT 间接 引用 了 addcnt 


因为 addcnt 是 由 1ibvector .so 模块 定义 的 ， 编 译 器 可 以 利用 代码 段 和 数据 段 之 间 
不 变 的 距离 ， 产 生 对 addcnt 的 直接 PC 相对 引用 ， EU 证 链接 器 在 构造 


这 个 共享 模块 时 解析 它 。 不 过 ， 如 果 aqddcnt 是 由 另 一 个 共享 模块 定义 的 ， 那 么 就 需要 通 
过 GOT 进行 间接 访问 。 在 这 里 ， 编 ; 村 进 汉 引用 地 着用 幼 起 类 砾 二 为 所 有 的 引用 使 
用 GOT。 

2. PIC 函数 调用 


假设 程序 调用 一 个 由 共享 库 定义 的 函数 。 编 译 器 没有 办 法 预测 这 个 函数 的 运行 时 地 址 ， 
因为 定义 它 的 共享 模块 在 运行 时 可 以 加 载 到 任意 位 置 。 正 常 的 方法 是 为 该 引用 生成 一 条 重 定 
位 记录 ， 然 后 动态 链接 器 在 程序 加 载 的 时 候 再 解析 它 。 不 过 ， 这 种 方法 并 不 是 PIC， 因 为 它 
需要 链接 器 修改 调用 模块 的 代码 段 ，GNU 编译 系统 使 用 了 一 种 很 有 趣 的 技术 来 解决 这 个 问 
题 ， 称 为 延迟 绑 定 (lazy binding)， 将 过 程 地 址 的 绑 定 推迟 到 第 一 次 调用 该 过 程 时 。 

使 用 延迟 绑 定 的 动机 是 对 于 一 个 像 1ibc.so 这 样 的 共享 库 输 出 的 成 百 上 千 个 函数 中 , 一 
个 典型 的 应 用 程序 只 会 使 用 其 中 很 少 的 一 部 分 。 把 函数 地 址 的 解析 推迟 到 它 实际 被 调用 的 地 
方 ， 能 避免 动态 链接 器 在 加 载 时 进行 成 百 上 于 个 其 实 并 不 需要 的 重 定位 。 第 一 次 调用 过 程 的 
运行 时 开销 很 大 ， 但 是 其 后 的 每 次 调用 都 只 会 花费 一 条 指令 和 一 个 间接 的 内 存 引用 。 

延迟 绑 定 是 通过 两 个 数据 结构 之 问 简洁 但 又 有 些 复杂 的 交互 来 实现 的 ， 这 两 个 数据 结 


pp 
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构 是 : GOT 和 过 程 链接 表 (Procedure Linkage Table，PLT)。 如 果 一 个 目标 模块 调用 定义 
在 共享 库 中 的 任何 函数 ， 那 么 它 就 有 自己 的 GOT 和 PLT。GOT 是 数据 段 的 一 部 分 ， 而 
PLT 是 代码 段 的 一 部 分 。 

os ee 首先 ， 让 我 们 检 

这 两 个 表 的 内 容 。 

ee 节 代 码 。PLT[0] 是 一 
个 特殊 条 目 ， 它 跳 转 到 动态 链接 器 中 。 每 个 被 可 执行 程序 调用 的 库 函 数 都 有 它 自 己 
的 PLT 和 条目。 每 个 条 目 都 负责 调用 一 个 具体 的 函数 。PLT[1]( 图 中 未 显示 ) 调 用 系 
统 启动 函数 ( libc start main)， 它 初始 化 执行 环境 ， 调 用 main 了 艺 数 并 处 理 其 
返回 值 。 从 FLT[2] 开 始 的 条 目 调用 用 户 代码 调用 的 函数 。 在 我 们 的 例子 中 ，PLT 
2] 调 用 adqdqvec，PLT[3]( 图 中 未 显示 ) 调 用 printf。 
全 局 偏 移 量 表 (GOT) 。 正 如 我 们 看 到 的 ，GOT 是 一 个 数组 ， 其 中 每 个 条 目 是 8 字 
节 地 址 。 和 PLT 联合 使 用 时 ，GoT [0] 和 GoT [1] 包 含 动态 链接 器 在 解析 函数 地 址 时 
会 使 用 的 信息 。GOoT [2] 是 动态 链接 器 在 1d-linux.so 模块 中 的 人 口 点 。 其 余 的 每 
个 条 目 对 应 于 一 个 被 调用 的 函数 ， 其 地 址 需要 在 运行 时 被 解析 。 每 个 条 目 都 有 一 个 
相 匹 配 的 PLT 条 目 。 例 如，Gor[4] 和 PLT[2] 对 应 于 addvec。 初 始 时 ， 每 个 GOT 
条 目 都 指向 对 应 PLT 条 目的 第 二 条 指令 。 


数据 段 
全 局 偏 移 量 表 (GOT) 


* addr of .dynamic 
GOTI[1]: addr of reloc entries 
GOT[2]: addr of dynamic linker 
GOT[3]: 0x4005b6 # sys startup 
: 0x4005c6 # aaavec () 
a Ox4005a6 # PETEE() 








数据 段 
全 局 偏 移 量 表 (GOT) 


: addr of .dynamic 

: addr of reloc entries 
: addr of dynamic linker 
: 0x4005b6 # sys startup 
: &addvec() 

i O2400596 # Drint£t 

















| 一 callG 0x4005c0 # call addvec{) 


外 | | 过 程 链接 表 (PLT) 
# PLT[O0]: call dynamic linker 
4005a0:pushq *GOT[1] 
4005a6:Jjmpa *GOT[2] 


callqgq 0x4005c0 # call addvec({() 


过 程 链接 表 (PLT) 








# PLT[0]: call dynamic linker 
4005a0:pushqgq *GOT[1] 
4905a6:jmpq *GOT[2] 

# PLT[2]: call addvec{) 
4005c0: jmpg *GOT[4] @ 
4005c6: PushaG $0xl 
4005cb: jmpqg 4005a0 





二 # PIT12J: call addvec!) 
5 4005e0: jnBg “GOTT4] 
4005c6: pushqgq $0Oxl1 
4005cb: jmpq 4005a0 


a ) 第 一 次 调用 addvec b ) 后 续 再 调用 aaaqvec 
图 7-19 用 PLT 和 GOT 调 用 外 部 函数 。 在 第 一 次 调用 addvec 时 ， 动 态 链接 器 解析 它 的 地 址 


























图 7-19a 展示 了 GOT 和 PLT 如 何 协 同 工 作 ， 在 addvec 被 第 一 次 调用 时 ， 延 迟 解 析 
第 1 步 。 不 直接 调用 adqdqvec， 程 序 调 用 进入 PLT[2]， 这 是 addvec 的 PLT 条 目 。 

第 2 步 。 第 一 条 PLT 指令 通过 GoT [4] 进 行 间 接 跳 转 。 因 为 每 个 GOT 条 目 初始 时 
oy 它 对 应 的 PLT 条 目的 第 二 条 指令 ， 这 个 间接 跳 转 只 是 简单 地 把 控制 传送 回 
PLT[2] 中 的 下 一 条 指令 。 





e 第 3 步 。 在 把 adadqvec 的 ID(COx1) 压 人 栈 中 之 后 ，PLT[2] 跳 转 到 PLT [0] 。 

@ 第 4 步 。PLT[0] 通 过 GOT[1] 间 接地 把 动态 链接 器 的 一 个 参数 压 入 栈 中 ， 然 后 通过 
GOT[2] 间 接 跳 转 进 动 态 链接 器 中 。 动 态 链接 器 使 用 两 个 栈 条 目 来 确定 addvec 的 运 
行 时 位 置 ， 用 这 个 地 址 重 写 cor [4] ， 再 把 控制 传递 给 addvec。 

图 7-19b 给 出 的 是 后 续 再 调用 addvec 时 的 控制 流 : 

e 第 1 步 。 和 前 面 一样 ， 控 制 传递 到 PLT[2]。 

@ 第 2 步 。 不 过 这 次 通过 GoT [4] 的 间接 跳 转 会 将 控制 直接 转移 到 addvec。 


7.13 库 打 桩 机 制 


Linux 链接 器 支持 一 个 很 强大 的 技术 ， 称 为 库 打 桩 (library interpositioning)， 它 人 允许 
你 截获 对 共享 库 函 数 的 调用 ， 取 而 代 之 执行 自己 的 代码 。 使 用 打桩 机 制 ， 你 可 以 追踪 对 某 
个 特殊 库 函 数 的 调用 次 数 ， 验 证 和 追踪 它 的 输入 和 输出 值 ， 或 者 甚至 把 它 替 换 成 一 个 完全 
不 同 的 实现 。 

下 面 是 它 的 基本 思想 : 给 定 一 个 需要 打桩 的 目标 函数 ， 创 建 一 个 包装 函数 ， 它 的 原型 
与 目标 函数 完全 一 样 。 使 用 某 种 特殊 的 打桩 机 制 ， 你 就 可 以 欺骗 系统 调用 包装 函数 而 不 是 
目标 函数 了 。 包 装 函 数 通常 会 执行 它 自己 的 逻辑 ， 然 后 调用 目标 函数 ， 再 将 目标 函数 的 返 
回 值 传递 给 调用 者 。 

打桩 可 以 发 生 在 编译 时 、 链 接 时 或 当 程 序 被 加 载 和 执行 的 运行 时 。 要 研究 这 些 不 同 的 
机 制 ， 我 们 以 图 7-20a 中 的 示例 程序 作为 运行 例子 。 它 调用 C 标准 库 (1ibc.so) 中 的 mal- 
loc 和 free 函数 。 对 malloc 的 调用 从 堆 中 分 配 一 个 32 字 节 的 块 ， 并 返回 指向 该 块 的 指 
针 。 对 free 的 调用 把 块 还 回 到 堆 ， 供 后 续 的 malloc 调用 使 用 。 我 们 的 目标 是 用 打桩 来 
追踪 程序 运行 时 对 malloc 和 free 的 调用 。 


7.13.1 编译 时 打桩 


图 7-20 展示 了 如 何 使 用 C 预 处 理 器 在 编译 时 打桩 。mymalloc.c 中 的 包装 函数 (图 7-20c) 
调用 目标 函数 ， 打 印 追 踪 记 录 ， 并 返回 。 本 地 的 malloc.h 头 文件 (图 7-20b) 指 示 预 处 理 器 用 
对 相应 包装 函数 的 调用 替换 掉 对 目标 函数 的 调用 。 像 下 面 这 样 编译 和 链接 这 个 程序 : 

linux> gcc -DCOMPILETIME -~c¢ mymalloc.c 

linux> gcc -I. -o intc int.c mymalloc.o 

由 于 有 -I. 参 数 ， 所 以 会 进行 打桩 ， 它 告诉 C 预 处 理 器 在 搜索 通常 的 系统 目录 之 前 ， 
先 在 当前 目录 中 查找 malloc.h。 注 意 ，mymalloc.c 中 的 包装 函数 是 使 用 标准 malloc,h 
头 文件 编译 的 。 

运行 这 个 程序 会 得 到 如 下 的 追踪 信息 : 

linux> ./intc 


malloc(32)=0x9ee010 
free (Ox9ee010) 


7. 13.2 链接 时 打桩 


Linux 静态 链接 器 支持 用 - -wrap f 标志 进行 链接 时 打桩 。 这 个 标志 告诉 链接 器 ， 把 对 
符号 £ 的 引用 解析 成 ”wrap_f( 前 缀 是 两 个 下 划 线 )， 还 要 把 对 符号 ” real f( 前 级 是 两 
个 下 划 线 ) 的 引用 解析 为 £。 图 7-21 给 出 我 们 示例 程序 的 包装 函数 。 
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code/linK/interpose/int.c 


#include <stdio.h> 
#include <malloc.h> 


int main() 

{ 
int *p = malloc(32); 
free(p); 
return(0); 


oNoOmAWNN- 


code/linK/interpose/int.c 


a) 示例 程序 int.c 
code/link/interpose/malloc.h 


#define malloc(size) mymalloc (size) 
#define free(ptr) myfree(ptr) 


void *mymalloc(size_t size); 
void myfree(void *ptr); 


wm 和 whP 一 


code/link/interpose/malloc.h 


b) 本 地 malloc.h 文 件 
code/link/interpose/mymalloc.c 


#ifdef COMPILETIME 
#include <stdio.h> 
#include <malloc.h> 


/* malloc wrapper function */ 
void *mymalloc(size_t size) 
‘ 
void *ptr = malloc(size) ; 
printf ("malloc(%d)=%p\n", 
(int)size, ptr); 
return ptr; 


Me 
OV NO w= 


i Se 
WB Od OO 


F 


/* free wrapper function */ 
void myfree(void *ptr) 
free(ptr) ; 
printf ("free(%p)\n", ptr); 
3 
#endif 


Db 
己 


code/linkK/interpose/mymalloc.c 
c) mymalloc.c 中 的 包装 函数 


图 7-20 用 C 预 处 理 器 进行 编译 时 打桩 
用 下 述 方法 把 这 些 源 文件 编译 成 可 重 定位 目标 文件 : 


linux> gcc -~DLINKTIME -c mymalloc.c 
linux> gcc -c int.c 


然后 把 目标 文件 链接 成 可 执行 文件 : 


linux> gcc -Wl1,--wrap,malloc -Wl1,--wrap,free -oO intl int.o mymalloc.o 


-Wl, option 标志 把 option 传递 给 链接 器 。option 中 的 每 个 逗号 都 要 替换 为 一 个 空 
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格 。 所 以 -Wl,--wrap, malloc 就 把 - -wrap malloc 传递 给 链接 器 ， 以 类 似 的 方式 传递 
-Wl,—- -wrap,free。 


code/link/interpose/mymalloc.c 
#ifdef LINKTIME 


1 

2 #include <stdio.h> 

3 

4 void *__real malloc(size_t size); 

5 void __real_free(void *ptr); 

6 

7 /* malloc wrapper function */ 

8 void *__wrap_malloc(size_t size) 

| 

10 void *ptr = __real_malloc(size); /* Call libc malloc */ 
11 printf ("malloc(%d) = %p\n", (int)size, ptr); 
2 return ptr; 

篇 } 


15  /* free wrapper function */ 
16 void __wrap_free(void *ptr) 


Tz { 

18 __real_free(ptr); /* Call libc free */ 
19 printf ("free(%p)\n", ptr); 

2 

21 #endif 


code/link/interpose/mymalloc.c 


图 7-21 用 --wrap 标志 进行 链接 时 打桩 


运行 该 程序 会 得 到 如 下 追踪 信息 : 
linux> ./intl 

malloc(32) = Ox18cf010 
free(Ox18cf010) 


7. 13.3 运行 时 打桩 


编译 时 打桩 需要 能 够 访问 程序 的 源 代码 ， 链 接 时 打桩 需要 能 够 访问 程序 的 可 重 定位 对 
象 文件 。 不 过 ， 有 一 种 机 制 能 够 在 运行 时 打桩 ， 它 只 需要 能 够 访问 可 执行 目标 文件 。 这 个 
很 厉害 的 机 制 基于 动态 链接 器 的 LD PRELOAD 环境 变量 。 

如 果 LD_PRELOAD 环境 变量 被 设置 为 一 个 共享 库 路 径 名 的 列表 (以 空格 或 分 号 分 隔 )， 
那么 当 你 加 载 和 执行 一 个 程序 ， 需 要 解析 未 定义 的 引用 时 ， 动 态 链接 器 (LD-LINUX.SO) 会 
先 搜索 LD_PRELOAD 库 ， 然 后 才 搜索 任何 其 他 的 库 。 有 了 这 个 机 制 ， 当 你 加 载 和 执行 任意 
可 执行 文件 时 ， 可 以 对 任何 共享 库 中 的 任何 函数 打桩 ， 包括 1ibc.so。 

图 7-22 展示 了 malloc 和 free 的 包装 函数 。 每 个 包装 函数 中 ， 对 dlsym 的 调用 返回 
指向 目标 Libc 函数 的 指针 。 然 后 包装 函数 调用 目标 函数 ， 打 印 追踪 记录 ， 再 返回 。 

下 面 是 如 何 构建 包含 这 些 包 装 函 数 的 共享 库 的 方法 : 

linux> gcc -DRUNTIME -shared -fpic -0 mymalloc.so mymalloc.c -1dl 


这 是 如 何 编 译 主 程序 : 


linux> gcc -0 intr int.c 
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code/link/interpose/mymalloc.c 
#ifdef RUNTIME 
#define _GNU_SOURCE 
#include <stdio.h> 
#include <stdlib.h> 
#include <dlfcn.h> 


/* malloc wrapper function */ 
void *malloc(size_t size) 


void *(*mallocp) (size_t size); 
Char *error; 
mallocp = dlsym(RTLD_NEXT, "malloc"); /* Get address of libc malloc */ 
if ((error = dlerror()) != NULL) { 
fputs(error, stderr); 
exit(1); 
上 
char *ptr = mallocp(size); /* Call libc malloc */ 
printf ("malloc(%d) = %p\n", (int)size, ptr); 
return ptr; 
} 


/* free wrapper function */ 

void free(void *ptr) 

{ 
void (*freep) (void *) = NULL; 
char *error; 


Is CIBptey) 
return; 


freep = dlsym(RTLD_NEXT, "free"); /* Get address of libc free */ 
if ((error = dlerror()) != NULL) { 
fputs(error, stderr); 
exit(1); 
} 
freep(ptr); /* Call libc free */ 
printf ("free(%p)\n", ptr); 
} 


#endif 
code/link/interpose/mymalloc.c 


4 二 :二 入 


图 7-22 用 LD_PRELOAD 进行 运行 时 打桩 


下 面 是 如 何 从 bash shell 中 运行 这 个 程序 9: 


linux> LD_PRELOAD=" ./mymalloc.so"” ./intr 
malloc(32) = 0x1ibf7010 
free (Ox1ibf7010) 





加 ”如果 你 不 知道 运行 的 shell 是 哪 一 种 ， 在 命令 行 上 输入 printenv SHELL。 
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下 面 是 如 何在 csh 或 tcsh 中 运行 这 个 程序 : 


linux> (setenv LD_PRELOAD "./mymalloc.so"; ./intr; unsetenv LD_PRELOAD) 
malloc(32) = Ox2157010 ' 
free(O0x2157010) 


请 注意 ， 你 可 以 用 LD_PRELOAD 对 任何 可 执行 程序 的 库 函 数 调用 打桩 ! 


linux> LD_PRELOAD=" ./mymalloc.so" /usr/bin/uptime 
malloc(568) = Ox21bb010 

free (Ox21bb010) 

malloc(15) = Ox21bb010 

malloc(568) = 0x21bb030 

malloc(2255) = 0x21bb270 

free(Ox21bb030) 

malloc(20) = 0x21bb030 

malloc(20) = 0x21bb050 


malloc(20) = 0x21bb070 
malloc(20) = 0x21bb090 
malloc(20) = 0x21bb0b0 


malloc(384) = Ox21bb0d0 
20:47:36 up 85 days, 6:04, 1 user, load average: 0.10, 0.04, 0.05 


7. 14 处理 目标 文件 的 工具 


在 Linux 系统 中 有 大 量 可 用 的 工具 可 以 帮助 你 理解 和 处 理 目标 文件 。 特 别 地 ，GNU 
binutils 包 尤 其 有 帮助 ， 而 且 可 以 运行 在 每 个 Linux 平 台 上 。 

e AR: 创建 静态 库 ， 插 和 人、 删除 、 列 出 和 提取 成 员 。 

e STRINGS: 列 出 一 个 目标 文件 中 所 有 可 打印 的 字符 串 。 

e STRIP: 从 目标 文件 中 删除 符号 表 信息 。 

e NM: 列 出 一 个 目标 文件 的 符号 表 中 定义 的 符号 。 

e SIZE: 列 出 目标 文件 中 节 的 名 字 和 大 小 。 

e READELF: 显示 一 个 目标 文件 的 完整 结构 ， 包 括 ELF 头 中 编码 的 所 有 信息 。 包 含 
SIZE 和 NM 的 功能 。 

e OBJDUMP: 所 有 二 进 制 工具 之 母 。 能 够 显示 一 个 目标 文件 中 所 有 的 信息 。 它 最 大 
的 作用 是 反 汇 编 .text 节 中 的 二 进 制 指令 。 

Linux 系统 为 操作 共享 库 还 提供 了 LDD 程序 : 

e LDD: 列 出 一 个 可 执行 文件 在 运行 时 所 需要 的 共享 库 。 


7.15 小 结 


链接 可 以 在 编译 时 由 静态 编译 器 来 完成 ， 也 可 以 在 加 载 时 和 运行 时 由 动态 链接 器 来 完成 。 链 接 器 处 
理 称 为 目标 文件 的 二 进 制 文件 ， 它 有 3 种 不 同 的 形式 : 可 重 定位 的 、 可 执行 的 和 共享 的 。 可 重 定位 的 目 
标 文件 由 静态 链接 器 合并 成 一 个 可 执行 的 目标 文件 ， 它 可 以 加 载 到 内 存 中 并 执行 。 共 享 目标 文件 (共享 
库 ) 是 在 运行 时 由 动态 链接 器 链接 和 加 载 的 ， 或 者 隐 含 地 在 调用 程序 被 加 载 和 开始 执行 时 ， 或 者 根据 需要 
在 程序 调用 alopen 库 的 函数 时 。 

链接 器 的 两 个 主要 任务 是 符号 解析 和 重 定位 ， 符 号 解析 将 目标 文件 中 的 每 个 全 局 符号 都 绑 定 到 ~ 个 
唯一 的 定义 ， 而 重 定位 确定 每 个 符号 的 最 终 内 存 地 址 ， 并 修改 对 那些 目标 的 引用 。 
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静态 链接 器 是 由 像 GCC 这 样 的 编译 驱动 程序 调用 的 。 它 们 将 多 个 可 重 定位 目标 文件 合并 成 一 个 单独 
的 可 执行 目标 文件 。 多 个 目标 文件 可 以 定义 相同 的 符号 ， 而 链接 器 用 来 悄悄 地 解析 这 些 多 重 定义 的 规则 
可 能 在 用 户 程 序 中 引入 微妙 的 错误 。 

多 个 目标 文件 可 以 被 连接 到 一 个 单独 的 静态 库 中 。 链 接 器 用 库 来 解析 其 他 目标 模块 中 的 符号 引 
用 。 许 多 链接 器 通过 从 左 到 右 的 顺序 扫描 来 解析 符号 引用 ， 这 是 另 一 个 引起 令 人 迷惑 的 链接 时 错误 
的 来 源 。 

加 载 器 将 可 执行 文件 的 内 容 映 射 到 内 存 ， 并 运行 这 个 程序 。 链 接 器 还 可 能 生成 部 分 链接 的 可 执行 目 
标 文件 ， 这 样 的 文件 中 有 对 定义 在 共享 库 中 的 例 程 和 数据 的 未 解析 的 引用 。 在 加 载 时 ， 加 载 器 将 部 分 链 
接 的 可 执行 文件 映射 到 内 存 ， 然 后 调用 动态 链接 器 ， 它 通过 加 载 共享 库 和 重 定位 程序 中 的 引用 来 完成 链 
接任 务 。 

被 编译 为 位 置 无 关 代 码 的 共享 库 可 以 加 载 到 任何 地 方 ， 也 可 以 在 运行 时 被 多 个 进程 共享 。 为 了 加 载 、 
链接 和 访问 共享 库 的 函数 和 数据 ， 应 用 程序 也 可 以 在 运行 时 使 用 动态 链接 器 。 


参考 文献 说 明 

在 计算 机 系统 文献 中 并 没有 很 好 地 记录 链接 。 因 为 链接 是 处 在 编译 器 、 计 算 机 体系 结构 和 操作 系统 
的 交叉 点 上 ， 它 要 求 理解 代码 生成 、 机 器 语言 编程 、 程 序 实 例 化 和 虚拟 内 存 。 它 没有 恰好 落 在 某 个 通常 
的 计算 机 系统 领域 中 ， 因 此 这 些 领 域 的 经 典 文献 并 没有 很 好 地 描述 它 。 然 而 ，Levine 的 专著 提供 了 有 关 
这 个 主题 的 很 好 的 一 般 性 参考 资料 [69]。[54] 描 述 了 ELF 和 DWARF( 对 .debug 和 .line 节 内 容 的 规范 ) 
的 原始 IA32 规范 。[36] 描 述 了 对 ELF 文件 格式 的 x86-64 扩展 。x86-64 应 用 二 进 制 接口 (ABI) 描 述 了 编 
译 、 链 接 和 运行 x86-64 程序 的 惯例 ， 其 中 包括 重 定位 和 位 置 无 关 代 码 的 规则 [77]。 


家 庭 作 业 
*7.6 这 道 题 是 关于 图 7-5 的 m.o 模块 和 下 面 的 swap.c 函数 版 本 的 ， 该 函数 计算 自己 被 调用 的 次 数 ， 


extern int buf[]; 





int *bufp0 = &buf [0] ; 
static int *bufpi1; 


static void incr() 
{ 


static int count=0,; 


了 
DoDoNvaecm 上 wmwN 一 


count++; 


} 


PE" 


小 mw IN 


void swap() 
间 


int temp; 


incr() ; 

bufpi = &buf{1]; 

temp = *bufp0; 

*bufpO = *bufpl; 

*bufpi = temp; 
于 


对 于 每 个 swap.o 中 定义 和 引用 的 符号 ， 请 指出 它 是 否 在 模块 swap.o 的 .symtab 节 中 有 符号 表 
和 条目。 如果 是 这 样 ， 请 指出 定义 该 符号 的 模块 (swap.o 或 m.o) 、 符 号 类 型 (局 部 、 全 局 或 外 部 ) 以 及 
它 在 模块 中 所 处 的 节 ( .text、.data 或 .bss)。 


oNJVU oOo wm 


Nb NM 
局 一 Oo 
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定义 符号 的 模块 | 节 






































*7.7 不 改变 任何 变量 名 字 ， 修 改 7.6. 1 节 中 的 bar5.c， 使 得 foo5.c 输 出 x 和 y 的 正确 值 ( 也 就 是 整数 
15213 和 15212 的 十 六 进 制 表示 ) 。 

*7.8 在 此 题 中 ，REF (x,i) 一 DEF (x，k) 表 示 链 接 器 将 任意 对 模块 i 中 符号 x 的 引用 与 模块 k 中 符号 x 的 
定义 相关 联 。 在 下 面 每 个 例子 中 ， 用 这 种 符号 来 说 明 链 接 器 是 如 何 解 析 在 每 个 模块 中 有 多 重 定义 的 
引用 的 。 如 果 出 现 链接 时 错误 (规则 1)， 写 “错误 ”。 如 果 链 接 器 从 定义 中 任意 选择 一 个 (规则 3)， 


那么 写 “ 未 知 ”。 
A. /* Module 1 */ /* Module 2 */ 
int main() static int main=1[ 
{ int p2() 
} 人 
小 
(a) REF(main.1) >DEF(  _ _ _ _ _ _ . ) 
(b) REF(main.2) >DEF(  .  ) 
B. /* Module 1 */ /* Module 2 */ 
Tb 天) double Xi 
void main() int p2() 
汪 江 
} 旧 
(Ca) "REF GE dx=> DEBC. ms) 
(b) REF(x.2) ~—> DEF( Ch 
C. /* Module 1 */ /* Module 2 */ 
int x=1; double x=1.0; 
void main() int p2() 
{ { 
} } 
(a) REF(x.1) >DEF( .  ) 
(b) REF(x.2)—>DEF(  . ) 
*7.9 考虑 下 面 的 程序 ， 它 由 两 个 目标 模块 组 成 : 
1 /* foo6.c */ 1 /* bar6.c */ 
2 void p2(void); 2  #include <stdio.h> 
3 3 
4 int main() 4 char main; 
5 { 
6 的 天 6 void p2() 
7 return 0; 7 
a 于 8 printf ("Ox%x\n", main); 
9 冰 


当 在 x86-64 Linux 系统 中 编译 和 执行 这 个 程序 时 ， 即 使 函数 p2 不 初始 化 变量 main， 它 也 能 打印 字 
符 串 “0x48\n” 并 正常 终止 。 你 能 解释 这 一 点 吗 ? 

**7.10 a 和 b 表 示 当 前 路 径 中 的 目标 模块 或 静态 库 ， 而 ab 表示 a 依赖 于 b， 也 就 是 说 a 引用 了 一 个 b 
定义 的 符号 。 对 于 下 面 的 每 个 场景 ， 给 出 使 得 静态 链接 器 能 够 解析 所 有 符号 引用 的 最 小 的 命令 行 
〈 即 含有 最 少数 量 的 目标 文件 和 库 参 数 的 命令 ) 。 


A 
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Ww 公 


9 


下 可 


六 


7 


7 





A Bo™Tibxa =Bd 
B. p.o>1ibx.a>1liby.a 和 liby.a>1libx.a 





C.p.o>1libx.a>1liby.a*libz.a 和 liby.a>libx.a>libz.a 

图 7-14 中 的 程序 头 部 表明 数据 段 占 用 了 内 存 中 0x230 个 字 节 。 然 而 ， 其 中 只 有 开始 的 0x228 字 节 
来 自 可 执行 文件 的 节 。 是 什么 引起 了 这 种 差异 ? 

考虑 目标 文件 m.o 中 对 函数 swap 的 调用 (作业 题 7. 6) 。 


9 : e8 00 00 00 00 callgq  e <main+OXxe> swap() 
具有 如 下 重 定位 条 目 : 

r.offset = Oxa 

r.symbol = swap 

r.type = R_X86_64_PC32 

r.addend = -4 


A. 假设 链接 器 将 m.o 中 的 .text 重 定位 到 地 址 0x4004e0， 把 swap 重 定位 到 地 址 0x4004f8。 那 么 
callq 指令 中 对 swap 的 重 定位 引用 的 值 应 该 是 什么 ? 

B. 假设 链接 器 将 m.o 中 的 .text 重 定位 到 地 址 0x400490， 把 swap 重 定 位 到 地 址 0x400500。 那 么 
callq 指令 中 对 swap 的 重 定位 引用 的 值 应 该 是 什么 ? 

完成 下 面 的 任务 将 帮助 你 更 熟悉 处 理 目标 文件 的 各 种 工具 。 

A. 在 你 的 系统 上 ，1ib.c 和 libm.a 的 版 本 中 包含 多 少 目标 文件 ? 

B. gcc-0og 产 生 的 可 执行 代码 与 gcc -0g-g 产生 的 不 同 吗 ? 

C. 在 你 的 系统 上 ，GCC 驱动 程序 使 用 的 是 什么 共享 库 ? 


页 答案 
这 道 练习 题 的 目的 是 帮助 你 理解 链接 器 符号 和 C 变量 及 函数 之 间 的 关系 。 注 意 C 的 局 部 变量 temp 
没有 符号 表 条 目 。 
和 在 哪个 模 决 中 定义 Ss 


Ee 王 汪 玫 基 S 2 了 
Durp 


< 七 乱 实 六 

















一 个 简单 的 练习 ， 检 查 你 对 Unix 链接 器 解析 在 一 个 以 上 模块 中 有 定义 的 全 局 符号 时 所 使 用 规 

i 理解 这 些 规则 可 以 帮助 你 避免 一 些 讨厌 的 编程 错误 。 
A. 链接 器 选择 定义 在 模块 1 中 的 强 符号 ， 而 不 是 定义 在 模块 2 中 的 弱 符 号 (规则 2) : 

(a) REF(main.1) 一 DEF(main.1) 

(b) REF(main.2) 一 DEF(main.1) 
B. 这 是 一 个 错误 ， 因 为 每 个 模块 都 定义 了 一 个 强 符号 main( 规 则 1)。 
C. 链接 器 选择 定义 在 模块 2 中 的 强 符号 ， 而 不 是 定义 在 模块 1 中 的 弱 符 号 (规则 2): 

(a) REF(x.1) 一 DEF(x.2) 

(b) REF(x.2) 一 DEF (x.2) 
在 命令 行 中 以 错误 的 顺序 放置 静态 库 是 造成 令 许多 程序 员 迷 惑 的 链接 器 错误 的 常见 原因 。 然 而 ， 一 
旦 你 理解 了 链接 器 是 如 何 使 用 静态 库 来 解析 引用 的 ， 它 就 相当 简单 易 懂 了 。 这 个 小 练习 检查 了 你 对 
这 个 概念 的 理解 : 
A. linux> gcc p.o libx.a 
B. linux> gcc p.o libx.a liby.a 
C. linux> gcc p.o libx.a liby.a libx.a 


这 道 题 涉及 的 是 图 7-12a 中 的 反 汇 编列 表 。 目 的 是 让 你 练习 阅读 反 汇 编列 表 ， 并 检查 你 对 PC 相对 








天 态 


寻 址 的 理解 。 
A. 第 5 行 被 重 定位 引用 的 十 六 进 制 地 址 为 0x4004df。 


B. 第 5 行 被 重 定位 引用 的 十 六 进 制 值 为 0x5。 记 住 ， 反 汇编 列表 给 出 的 引用 值 是 用 小 端 法 字 节 顺序 


表示 的 。 
这 道 题 是 测试 你 对 链接 器 重 定 位 PC 相对 引用 的 理解 的 。 给 定 
ADDR(s) = ADDR(.text) = Ox4004d0 
和 
ADDR(r .symbol) = ADDR(swap) = 0x4004e8 


使 用 图 7-10 中 的 算法 ， 链 接 器 首先 计算 引用 的 运行 时 地 址 : 


ADDR(s) + r.offset 
Ox4004d0 + Oxa 
Ox4004da 


然后 修改 此 引用 : 


(unsigned) (ADDR(r.symbol) + r.addend - refaddr) 
(unsigned) (0x4004e8 pa) - Ox4004da) 
(unsigned) (0xa) 


因此 ， 得 到 的 可 执行 目标 文件 中 ， 对 swap 的 PC 相对 引用 的 值 为 0xa: 
4004d9: e8 0a 00 00 00 callq 4004e8 <swap> 


refaddr 


*refptr 
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噶 第 控制 流 


从 给 处 理 器 加 电 开 始 ， 直 到 你 断 电 为 止 ， 程 序 计数 器 假设 一 个 值 的 序列 
po 
其 中 ， 每 个 a 是 某 个 相应 的 指令 I 的 地 址 。 每 次 从 ai 到 a -1 的 过 渡 称 为 控制 转移 (control 
transfer) 。 这 样 的 控制 转移 序列 叫做 处 理 器 的 控制 流 (flow of control 或 control flow)。 

最 简单 的 一 种 控制 流 是 一 个 “平滑 的 ”序列 ， 其 中 每 个 五 和 到: 在 内 存 中 都 是 相 邻 
的 。 这 种 平滑 流 的 突变 (也 就 是 Ii+1 与 I 不 相 邻 ) 通 常 是 由 诸如 跳 转 、 调 用 和 返回 这 样 一 些 
熟悉 的 程序 指令 造成 的 。 这 样 一 些 指令 都 是 必要 的 机 制 ， 使 得 程序 能 够 对 由 程序 变量 表示 
的 内 部 程序 状态 中 的 变化 做 出 反应 。 

但 是 系统 也 必须 能 够 对 系统 状态 的 变化 做 出 反应 ， 这 些 系 统 状态 不 是 被 内 部 程序 变量 捕 
获 的， 而 且 也 不 一 定 要 和 程序 的 执行 相关 。 上 比如， 一 个 硬件 定时 器 定期 产生 信号 ， 这 个 事件 
必须 得 到 处 理 。 包 到 达 网 络 适配器 后 ， 必 须 存放 在 内 存 中 。 程 序 向 磁盘 请 求 数据 ， 然 后 休 
眠 ， 直 到 被 通知 说 数据 已 就 绪 。 当 子 进程 终止 时 ， 创 造 这 些 子 进程 的 父 进程 必须 得 到 通知 。 

现代 系统 通过 使 控制 流 发 生 突变 来 对 这 些 情 况 做 出 反应 。 一 般 而 言 ， 我 们 把 这 些 突变 
称 为 异常 控制 流 (Exceptional Control Flow，ECF)。 异 常 控 制 流 发 生 在 计算 机 系统 的 各 个 
层次 。 比 如 ， 在 硬件 层 ， 硬 件 检 测 到 的 事件 会 触发 控制 突然 转移 到 异常 处 理 程序 。 在 操作 
系统 层 ， 内 核 通过 上 下 文 切换 将 控制 从 一 个 用 户 进程 转移 到 另 一 个 用 户 进程 。 在 应 用 层 ， 
一 个 进程 可 以 发 送信 号 到 另 一 个 进程 ， 而 接收 者 会 将 控制 突然 转移 到 它 的 一 个 信号 处 理 程 
序 。 一 个 程序 可 以 通过 回避 通常 的 栈 规则 ， 并 执行 到 其 他 函数 中 任意 位 置 的 非 本 地 跳 转 来 
对 错误 做 出 反应 。 

作为 程序 员 ， 理 解 ECF 很 重要 ， 这 有 很 多 原因 , 

@ 理解 ECF 将 帮助 你 理解 重要 的 系统 概念 。ECF 是 操作 系统 用 来 实现 IO、 进 程 和 

虚拟 内 存 的 基本 机 制 。 在 能 够 真正 理解 这 些 重要 概念 之 前 ， 你 必须 理解 ECF。 

@ 理解 ECF 将 帮助 你 理解 应 用 程序 是 如 何 与 操作 系统 交互 的 。 应 用 程序 通过 使 用 一 
个 叫做 陷阱 (trap) 或 者 系统 调用 (system call) 的 ECF 形式 ， 向 操作 系统 请 求 服 务 。 
比如 ， 向 磁盘 写 数 据 、 从 网 络 读 取 数 据 、 创 建 一 个 新 进程 ， 以 及 终止 当前 进程 ， 都 
是 通过 应 用 程序 调用 系统 调用 来 实现 的 。 理 解 基 本 的 系统 调用 机 制 将 帮助 你 理解 这 
些 服务 是 如 何 提供 给 应 用 的 。 
理解 ECF 将 帮助 你 编写 有 趣 的 新 应 用 程序 。 操 作 系 统 为 应 用 程序 提供 了 强大 的 
ECF 机 制 ， 用 来 创建 新 进程 、 等 待 进程 终止 、 通 知 其 他 进程 系统 中 的 异常 事件 ， 以 
及 检测 和 响应 这 些 事 件 。 如 果 理 解 了 这 些 ECF 机 制 ， 那么 你 就 能 用 它们 来 编写 诸 
如 Unix shell 和 Web 服务 器 之 类 的 有 趣 程 序 了 。 
理解 ECF 将 帮助 你 理解 并 发 。ECF 是 计算 机 系统 中 实现 并 发 的 基本 机 制 。 在 运行 
中 的 并 发 的 例子 有 : 中 断 应 用 程序 执行 的 异常 处 理 程序 ， 在 时 间 上 重 倒 执行 的 进程 
和 线程 ， 以 及 中 断 应 用 程序 执行 的 信号 处 理 程序 。 理 解 ECF 是 理解 并 发 的 第 一 步 。 
我 们 会 在 第 12 章 中 更 详细 地 研究 并 发 。 
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@ 理解 ECF 将 帮助 你 理解 软件 异常 如 何 工 作 。 像 C++ 和 Java 这 样 的 语言 通过 try、 
catch 以 及 throw 语句 来 提供 软件 异常 机 制 。 软 件 异 常 允 许 程序 进行 非 本 地 跳 转 
〈 即 违反 通常 的 调用 /返回 栈 规则 的 跳 转 ) 来 响应 错误 情况 。 非 本 地 跳 转 是 一 种 应 用 
层 ECF, 在 C 中 是 通过 setjmp 和 longjmp 函数 提供 的 。 理 解 这 些 低级 函数 将 帮助 
你 理解 高 级 软件 异常 如 何 得 以 实现 。 
对 系统 的 学 习 ， 到 目前 为 止 你 已 经 了 解 了 应 用 是 如 何 与 硬件 交互 的 。 本 章 的 重要 性 在 
于 你 将 开始 学 习 应 用 是 如 何 与 操作 系统 交互 的 。 有 趣 的 是 ， 这 些 交 互 都 是 围绕 着 ECF 的 。 
我 们 将 描述 存在 于 一 个 计算 机 系统 中 所 有 层次 上 的 各 种 形式 的 ECF。 从 异常 开始 ， 异 常 位 
于 硬件 和 操作 系统 交界 的 部 分 。 我 们 还 会 讨论 系统 调用 ， 它 们 是 为 应 用 程序 提供 到 操作 系 
统 的 入 口 点 的 异常 。 然 后 ， 我 们 会 提升 抽象 的 层次 ， 描 述 进程 和 信和 号， 它们 位 于 应 用 和 操 
作 系 统 的 交界 之 处 。 最 后 讨论 非 本 地 跳 转 ， 这 是 ECF 的 一 种 应 用 层 形 式 。 


8.1 民间 

异常 是 异常 控制 流 的 一 种 形式 ， 它 一 部 分 由 硬件 实现 ， 一 部 分 由 操作 系统 实现 。 因 为 
它们 有 一 部 分 是 由 硬件 实现 的 ， 所 以 具体 细节 将 随 系统 的 不 同 而 有 所 不 同 。 然 而 ， 对 于 每 
个 系统 而 言 ， 基 本 的 思想 都 是 相同 的 。 在 这 一 节 中 我 们 的 目的 是 让 你 对 异常 和 异常 处 理 有 
一 个 一 般 性 的 了 解 ， 并 且 向 你 揭示 现代 计算 机 系统 的 一 个 经 常 令 人 感到 迷惑 的 方面 。 

异常 (exception) 就 是 控制 流 中 的 突 应 用 程序 异常 处 理 程序 
变 ， 用 来 响应 处 理 器 状态 中 的 某 些 变化 。 

图 8-1 展示 了 基本 的 思想 。 

在 图 中 ， 当 处 理 器 状态 中 发 生 一 个 事件 在 4 
重要 的 变化 时 ， 处 理 器 正在 执行 某 个 当 这 里 发 生 Len 
前 指令 Turn。 在 处 理 器 中 ， 状 态 被 编码 
为 不 同 的 位 和 信号。 状态 变化 称 为 事件 
Cevent) 。 事 件 可 能 和 当前 指令 的 执行 直 
接 相 关 。 比 如 ， 发 生 虚 拟 内 存 缺 页 、 算 
术 滋 出， 或 者 一 条 指令 试图 除 以 零 。 另 同 8-1 异常 的 剖析 。 处 理 器 状态 中 的 变化 (事件 ) 触 发 从， 

1 Su D | 异常 处 4 突 发 邓 
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没有 关系 。 比 如 ， 一 个 系统 定时 器 产生 回 给 被 中 断 的 程序 或 者 终止 
信和 号 或 者 一 个 I/O 请 求 完成 。 

在 任何 情况 下 ， 当 处 理 器 检测 到 有 事件 发 生 时 ， 它 就 会 通过 一 张 叫 做 异常 表 (excep- ， 
tion table) 的 跳 转 表 ， 进 行 一 个 间接 过 程 调用 (异常 )， 到 一 个 专门 设计 用 来 处 理 这 类 事件 ， 
的 操作 系统 子 程序 (异常 处 理 程序 (exception handler))。 当 异常 处 理 程序 完成 处 理 后 , 根 ， 
据 引 起 异常 的 事件 的 类 型 ， 会 发 生 以 下 3 种 情况 中 的 一 种 : 

1) 处 理 程 序 将 控制 返回 给 当前 指令 Tu- ， 即 当 事 件 发 生 时 正在 执行 的 指令 。 

2) 处 理 程序 将 控制 返回 给 fs ， 如 果 没 有 发 生 异 常 将 会 执行 的 下 一 条 指令 。 

3) 处 理 程序 终止 被 中 断 的 程序 。 

8. 1. 2 节 将 讲述 关于 这 些 可 能 性 的 更 多 内 容 。 


国 河 硬件 异常 与 软件 异常 


C++ 和 Java 的 程序 员 会 注意 到 术语 “异常 ”也 用 来 描述 由 C++ 和 Java 以 catch、 


异常 
处 理 









异常 返回 
(可 选 的 ) 
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throw 和 try 语句 形式 提供 的 应 用 级 CF。 如 果 想 严格 清晰 ， 我 们 必须 区 别 “ 硬 件 ” 和 
“软件 ”异常 ， 但 这 通常 是 不 必要 的 ， 因 为 从 上 下 文中 就 能 够 很 清楚 地 知道 是 哪 种 含义 。 


8 11 异常 处 理 


异常 可 能 会 难以 理解 ， 因 为 处 理 异 常 需要 硬件 和 软件 紧密 合作 。 很 容易 搞 混 哪 个 部 分 
执行 哪个 任务 。 让 我 们 更 详细 地 来 看 看 硬件 和 软件 的 分 工 吧 。 

系统 中 可 能 的 每 种 类 型 的 异常 都 分 配 了 一 个 唯一 的 非 负 整数 的 异常 号 (exception num- 
ber) 。 其 中 一 些 号 码 是 由 处 理 器 的 设计 者 分 配 的 ， 其 他 号 码 是 由 操作 系统 内 核 (操作 系统 
常 驻 内 存 的 部 分 ) 的 设计 者 分 配 的 。 前 者 的 示例 包括 被 零 除 、 缺 页 、 内 存 访问 违例 、 断 点 
以 及 算术 运算 溢出 。 后 者 的 示例 包括 系统 调用 和 来 自 外 部 I/O 设备 的 信号 。 


在 系统 启动 时 ( 当 计 算 机 重启 或 者 加 电 
时 )， 操 作 系 统 分 配 和 初始 化 一 张 称 为 异常 表 
的 跳 转 表 ， 使 得 表 目 包含 异常 的 处 理 程序 
的 地 址 。 图 8-2 展示 了 异常 表 的 格式 。 

在 运行 时 ( 当 系 统 在 执行 某 个 程序 时 )， 处 
理 央 检测 到 发 生 了 一 个 事件 ， 并 且 确 定 了 相应 
的 异常 号 &。 随 后 ， 处 理 回 触发 异常 ， 方 法 是 
执行 间接 过 程 调用 ， 通 过 异常 表 的 表 目 &， 转 
到 相应 的 处 理 程序 。 图 8-3 展示 了 处 理 器 如 何 
使 用 异常 表 来 形成 适当 的 异常 处 理 程序 的 地 址 。 
异常 号 是 到 异常 表 中 的 索引 ， 蜡 常 表 的 起 始 地 


异常 处 理 程 序 0 的 代码 


异常 表 异常 处 理 程序 1 的 代码 


0 
1 
人 异常 处 理 程序 2 的 代码 
异常 处 理 程序 -1 的 代码 


图 8-2 异常 表 。 异 常 表 是 一 张 跳 转 表 ， 其 中 表 目 
包含 异常 的 处 理 程序 代码 的 地 址 


址 放 在 一 个 叫做 异常 表 基 址 寄存 器 (exception table base register) 的 特殊 CPU 寄存 器 里 。 
异常 表 


这 


吊 
( x84) 










异常 表 基 址 寄存 器 






异常 大 的 条 目的 地 址 





IE 


图 8-3 生成 异常 处 理 程序 的 地 址 。 异 常 号 是 到 异常 表 中 的 索引 


异常 类 似 于 过 程 调用 ,但 是 有 一 些 重要 的 不 同 之 处 : 

e 过 程 调 用 时 ， 在 跳 转 到 处 理 程序 之 前 ， 处 理 器 将 返回 地 址 压 人 栈 中 。 然 而 ， 根 据 异 
常 的 类 型 ， 返 回 地 址 要 么 是 当前 指令 ( 当 事 件 发 生 时 正在 执行 的 指令 )， 要 么 是 下 一 
条 指令 (如 果 事 件 不 发 生 ， 将 会 在 当前 指令 后 执行 的 指令 )。 

e 处 理 右 也 把 一 些 额 外 的 处 理 咒 状态 压 到 栈 里 ， 在 处 理 程序 返回 时 ， 重 新 开始 执行 被 
中 断 的 程序 会 需要 这 些 状态 。 比 如 ，x86-64 系统 会 将 包含 当前 条 件 码 的 EFLAGS 


寄存 器 和 其 他 内 容 压 人 栈 中 。 





e 如 有 果 控 制 从 用 户 程序 转移 到 内 核 ， 所 有 这 些 项 目 都 被 压 到 内 核 栈 中 ， 而 不 是 压 到 用 


户 栈 中 。 


e 异常 处 理 程 序 运 行 在 内 核 模 式 下 ( 见 8.2.4 节 )， 这 意味 着 它们 对 所 有 的 系统 资源 都 


有 完全 的 访问 权限 。 


一 旦 硬件 触发 了 异常 ， 剩 下 的 工作 就 是 由 异常 处 理 程 序 在 软件 中 完成 。 在 处 理 程序 处 
理 完事 件 之 后 ， 它 通过 执行 一 条 特殊 的 “从 中 断 返 回 ” 指 令 ， 可 选 地 返回 到 被 中 断 的 程 
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序 ， 该 指令 将 适当 的 状态 弹 回 到 处 理 器 的 控制 和 数据 寄存 器 中 ， 如 果 蜡 常 中 断 的 是 一 个 用 
户 程序 ， 就 将 状态 恢复 为 用 户 模式 ( 见 8. 2.4 节 )， 然 后 将 控制 返回 给 被 中 断 的 程序 。 


8. 1.2 异常 的 类 别 
异常 可 以 分 为 四 类 中 断 (interrupt)、 陷 阱 (trap)、 故 障 (fault) 和 终止 (abort)。 图 8-4 中 
的 表 对 这 些 类 别 的 属性 做 了 小 结 。 





































| 类 别 | 原因 异步 /同步 | 返回 行为 
中 断 来 自 IO 设备 的 信号 异步 总 是 返回 到 下 一 条 指令 
潜在 可 恢复 的 错误 可 能 返回 到 当前 指令 












不 可 恢复 的 错误 不 会 返回 


图 8-4 异常 的 类 别 。 异 步 异 常 是 由 处 理 器 外 部 的 I/O 设备 中 的 事件 产生 的 。 同 步 异常 
是 执行 一 条 指令 的 直接 产物 


1. 中 断 

中 断 是 异步 发 生 的 ， 是 来 自 处 理 器 外 部 的 IO 设备 的 信和 号 的 结果 。 硬 件 中 断 不 是 由 任 
何 一 条 专门 的 指令 造成 的 ， 从 这 个 意义 上 来 说 它 是 异步 的 。 硬 件 中 断 的 异常 处 理 程序 常 党 
称 为 中 断 处 理 程序 (interrupt handler) 。 

图 8-5 概述 了 一 个 中 断 的 处 理 。1/O 设备 ， 例 如 网 络 适 配器 、 磁 盘 控 制 器 和 定时 器 芯 
片 ， 通 过 向 处 理 器 芯片 上 的 一 个 引 脚 发 信号 ， 并 将 异常 号 放 到 系统 总 线 上 ， 来 触发 中 断 ， 
这 个 异常 号 标识 了 引起 中 断 的 设备 。 












(2 ) 在 当前 指令 完成 后 ， 
(1 ) 在 当前 指令 控制 传递 给 处 理 程序 
的 执行 过 程 中 , 中 7 

断 引 脚 电压 变 高 了 “es 








Too 


(3 ) 中 断 处 
理 程序 运行 





(4 ) 处 理 程序 返回 
到 下 一 条 指令 






图 8-5 中断 处 理 。 中 断 处 理 程序 将 控制 返回 给 应 用 程序 控制 流 中 的 下 一 条 指令 


在 当前 指令 完成 执行 之 后 ， 处 理 器 注意 到 中 断 引 脚 的 电压 变 高 了 ， 就 从 系统 总 线 读 取 
异常 号 ， 然 后 调用 适当 的 中 断 处 理 程序 。 当 处 理 程 序 返 回 时 ， 它 就 将 控制 返回 给 下 一 条 指 
令 ( 也 即 如 果 没 有 发 生 中 断 ， 在 控制 流 中 会 在 当前 指令 之 后 的 那 条 指令 )。 结 果 是 程序 继续 
执行 ， 就 好 像 没有 发 生 过 中 断 一 样 。 

剩 下 的 异常 类 型 (陷阱 、 故 障 和 终止 ) 是 同步 发 生 的 ， 是 执行 当前 指令 的 结果 。 我 们 把 
这 类 指令 叫做 故障 指令 (faulting instruction ) 。 

2. 陷阱 和 系统 调用 

陷阱 是 有 意 的 异常 ， 是 执行 一 条 指令 的 结果 。 就 像 中 断 处 理 程序 一 样 ， 陷 阱 处 理 程序 
将 控制 返回 到 下 一 条 指令 。 陷 阱 最 重要 的 用 途 是 在 用 户 程序 和 内 核 之 间 提 供 一 个 像 过 程 一 
样 的 接口 ， 叫 做 系统 调用 。 

用 户 程序 经 常 需要 向 内 核 请 求 服务 ， 比 如 读 一 个 文件 (read)、 创 建 一 个 新 的 进程 
(fork)、 加 载 一 个 新 的 程序 (execve)， 或 者 终止 当前 进程 (exit)。 为 了 允许 对 这 些 内 核 
服务 的 受 控 的 访问 ， 处 理 器 提供 了 一 条 特殊 的 “syscall n” 指 令 ， 当 用 户 程序 想 要 请 求 


第 8 章 民 沉 控制 流 505 





服务 时 ， 可 以 执行 这 条 指令 。 执 行 syscall 指令 会 导致 一 个 到 异常 处 理 程序 的 陷阱 ， 
这 个 处 理 程序 解析 参数 ， 并 调用 适当 的 内 核 程序 。 图 8-6 概述 了 一 个 系统 调用 的 处 理 。 






(1 ) 应 用 程 Sysacall (2) 控制 传递 给 处 理 程序 


序 执行 一 次 系 Tnext 
统 调用 





(4 ) 处 理 程序 返回 到 
syscall 之 后 的 指令 





图 8-6 ”陷阱 处 理 。 陷 阱 处 理 程序 将 控制 返回 给 应 用 程序 控制 流 中 的 下 一 条 指令 


从 程序 员 的 角度 来 看 ， 系 统 调用 和 普通 的 函数 调用 是 一 样 的 。 然 而 ， 它 们 的 实现 非常 不 
同 。 普 通 的 函数 运行 在 用 户 模式 中 ， 用 户 模式 限制 了 函数 可 以 执行 的 指令 的 类 型 ， 而 且 它 们 
只 能 访问 与 调用 函数 相同 的 栈 。 系 统 调用 运行 在 内 核 模 式 中 ， 内 核 模 式 允 许 系统 调用 执行 特 
权 指令 ， 并 访问 定义 在 内 核 中 的 栈 。8. 2. 4 节 会 更 详细 地 讨论 用 户 模式 和 内 核 模 式 。 

3. 故障 

故障 由 错误 情况 引起 ， 它 可 能 能 够 被 故障 处 理 程序 修正 。 当 故障 发 生 时 ， 处 理 器 将 控 
制 转移 给 故障 处 理 程序 。 pea tai 它 就 将 控制 返回 到 引起 故 
障 的 指令 ， 从 而 重新 执行 它 。 否 则 ， 处 理 程 序 返 回 到 内 核 中 的 abort 例 程 ，abort 例 程 会 
终止 引起 故障 的 应 用 程序 。 图 8-7 概述 了 一 个 故障 的 处 理 。 





(1) 当前 指令 /上 (2 ) 控制 传递 给 处 理 程序 


导致 一 个 故障 “” (3 ) 故障 处 


理 程序 运行 
(4 ) 处 理 程序 要 么 重新 
执行 当前 指令 ， 要么 终止 
图 8-7 故障 处 理 。 根 据 故障 是 否 能 够 被 修复 ， 故 障 处 理 程序 要 么 重新 执行 引起 故障 的 指令 ,要么 终止 


一 个 经 典 的 故障 示例 是 缺 页 异常 ， 当 指令 引用 一 个 虚拟 地 址 ， 而 与 该 地 址 相对 应 的 物 

理 页 面 不 在 内 存 中 ， 因此 必须 从 磁盘 中 取出 时 ， 就 会 发 生 故 障 。 就 像 我 们 将 在 第 9 章 中 看 
到 的 那样 ， 一 个 页 面 就 是 虚拟 内 存 的 一 个 连续 的 块 (典型 的 是 4KB) 。 缺 页 处 理 程 序 从 磁盘 
加 载 适当 的 页 面 ， 然 后 将 控制 返回 给 引起 故障 的 指令 。 当 指令 再 次 执行 时 ， 相 应 的 物理 页 
面 已 经 驻 留 在 内 存 中 了 ， 指 令 就 可 以 没有 故障 地 运行 完成 了 。 

4. 终止 

终止 是 不 可 恢复 的 致命 错误 造成 的 结果 ， 通 常 是 一 些 硬件 错误 ， 比 如 DRAM 或 者 
SRAM 位 被 损坏 时 发 生 的 奇偶 错误 。 终 止 处 理 程序 从 不 将 控制 返回 给 应 用 程序 。 如 图 8-8 
所 示 ， 处 理 程 序 将 控制 返回 给 一 个 abort 例 程 ， 该 例 程 会 终止 这 个 应 用 程序 。 





8.1.3 Linux/x86-64 系统 中 的 异常 

为 了 使 描述 更 具体 ， 让 我 们 来 看 看 为 x86-64 系统 定义 的 一 些 异 常 。 有 高 达 256 种 不 同 的 
异常 类 型 L50j]。0 一 31 的 号 码 对 应 的 是 由 Intel 架构 师 定义 的 异常 ， 因 此 对 任何 x86-64 系统 都 
是 一 样 的 。32 一 255 的 号 码 对 应 的 是 操作 系统 定义 的 中 断 和 陷阱 。 图 8-9 展示 了 一 些 示例 。 





(1) 发 生 致命 1 二 (2 ) 传递 控制 给 处 理 程序 


的 硬件 错误 (3 ) 终止 处 
理 程序 运行 


(4) 处 理 程序 字 返 回 到 
abort 例 程 


图 8-8 终止 处 理 。 终 止 处 理 程序 将 控制 传递 给 一 个 内 核 abort 例 程 ， 该 例 程 会 终止 这 个 应 用 程序 




















异常 号 描述 异常 类 别 
0 除法 错误 故障 ou 
TI 一 般 保 护 故障 故障 
14 缺 页 故障 
18 机 器 检查 终止 
32-~255 操作 系统 定义 的 异常 中 断 或 陷阱 

















图 8-9 x86-64 系统 中 的 异常 示例 


1. Linux/x86-64 故障 和 终止 

除法 错误 。 当 应 用 试图 除 以 零 时 ， 或 者 当 一 个 除法 指令 的 结果 对 于 目标 操作 数 来 说 太 
大 了 的 时 候 ， 就 会 发 生 除法 错误 (异常 0) 。Unix 不 会 试图 从 除法 错误 中 恢复 ， 而 是 选择 终 
止 程序 。Linux shell 通常 会 把 除法 错误 报告 为 “ 浮 点 异常 (Floating exception)”。 

一 般 保护 故障 。 许 多 原因 都 会 导致 不 为 人 知 的 一 般 保护 故障 (异常 13)， 通 常 是 因为 一 
个 程序 引用 了 一 个 未 定义 的 虚拟 内 存 区 域 , 或 者 因为 程序 试图 写 一 个 只 读 的 文本 段 。 
Linux 不 会 尝试 恢复 这 类 故障 。Linux shell 通常 会 把 这 种 一 般 保护 故障 报告 为 “ 段 故障 
(Segmentation fault)”。 

缺 页 (异常 14) 是 会 重新 执行 产生 故障 的 指令 的 一 个 异常 示例 。 处 理 程 序 将 适当 的 磁盘 
上 虚拟 内 存 的 一 个 页 面 映射 到 物理 内 存 的 一 个 页 面 ， 然 后 重新 执行 这 条 产生 故障 的 指令 。 
我 们 将 在 第 9 章 中 看 到 缺 页 是 如 何 工作 的 细节 。 

机 器 检查 。 机 器 检查 (异常 18) 是 在 导致 故障 的 指令 执行 中 检测 到 致命 的 硬件 错误 时 发 
生 的 。 机 器 检查 处 理 程序 从 不 返回 控制 给 应 用 程序 。 

2. Linux/86-64 系统 调用 

Linux 提供 几 百 种 系统 调用 ， 当 应 用 程序 想 要 请 求 内 核 服 务 时 可 以 使 用 ， 包 括 读 文 
件 、 写 文件 或 是 创建 一 个 新 进程 。 图 8-10 给 出 了 一 些 常见 的 Linux 系统 调用 。 每 个 系统 
调用 都 有 一 个 唯一 的 整数 号 ， 对 应 于 一 个 到 内 核 中 跳 转 表 的 偏 移 量 。( 注 意 : 这 个 跳 转 表 
和 异常 表 不 一 样 。) 

C 程序 用 syscall 函数 可 以 直接 调用 任何 系统 调用 。 然 而 ， 实 际 中 几乎 没 必要 这 么 做 。 对 
于 大 多 数 系统 调用 ， 标 准 C 库 提供 了 一 组 方便 的 包装 函数 。 这 些 包 装 函 数 将 参数 打包 到 一 起 ， 
以 适当 的 系统 调用 指令 陷入 内 核 ， 然 后 将 系统 调用 的 返回 状态 传递 回调 用 程序 。 在 本 书 中 , 我 
们 将 系统 调用 和 与 它们 相关 联 的 包装 函数 都 称 为 系统 级 函数 ， 这 两 个 术语 下 可 以 互 换 地 使 用 。 

在 x86-64 系统 上 ， 系 统 调用 是 通过 一 条 称 为 syscall 的 陷阱 指令 来 提供 的 。 研 究 程 
序 能 够 如 何 使 用 这 条 指令 来 直接 调用 Linux 系统 调用 是 很 有 趣 的 。 所 有 到 Linux 系统 调用 
的 参数 都 是 通过 通用 寄存 器 而 不 是 栈 传 递 的 。 按 照 惯例 ， 寄 存 器 srax 包含 系统 调用 号 ， 
寄存 器 S$rdi、s%srsi、%srdx、%r10、%r8 和 sr9 包含 最 多 6 个 参数 。 第 一 个 参数 在 srdi 中 , 第 
二 个 在 srsi 中 ， 以 此 类 推 。 从 系统 调用 返回 时 ， 寄 存 器 srcx 和 sr11 都 会 被 破坏 ,%rax 包 : 
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含 返回 值 。 一 4095 到 一 1 之 间 的 负数 返回 值 表 明 发 生 了 错误 ， 对 应 于 负 的 errno。 





















































编号 名 字 描述 编号 名 字 描述 
0 read 读 文 件 33 pause 挂 起 进程 直到 信号 到 达 
1 write 写 文件 37 alarm 调度 告警 信号 的 传送 
区 open 打开 文件 39 getpid 获得 进程 ID 
3 close 关闭 文件 S57 fork 创建 进程 
4 stat 获得 文件 信息 59 execve -执行 一 个 程序 
9 mmap 将 内 存 页 映射 到 文件 60 _exit 终止 进程 

2 brk 重 置 堆 顶 61 wait4 等 待 一 个 进程 终止 
32 dup2 复制 文件 描述 符 62 ii 发 送信 号 到 一 个 进程 











图 8-10 Linux x86-64 系统 中 常用 的 系统 调用 示例 


例如 ， 考 虑 大 家 熟悉 的 hello 程序 的 下 面 这 个 版 本 ， 用 系统 级 函数 write( 见 10.4 
节 ) 来 写 ， 而 不 是 用 printf: 


1 int main() 

3 write(1, "hello, world\n", 13); 
4 _exit (0); 

5 


write 图 数 的 第 一 个 参数 将 输出 发 送 到 stdout。 第 二 个 参数 是 要 写 的 字 节 序列 ， 而 
第 三 个 参数 是 要 写 的 字 节 数 。 
图 8-11 给 出 的 是 hello 程序 的 汇编 语言 版 本 ， 直 接 使 用 syscall 指令 来 调用 write 
和 exit 系统 调用 。 第 9 一 13 行 调用 write 函数 。 首 先 ， 第 9 行将 系统 调用 write 的 编号 
存放 在 srax 中 ， 第 10 一 12 行 设置 参数 列表 。 然 后 第 13 行使 用 syscall 指令 来 调用 系统 
调用 。 类 似 地 ， 第 14 一 16 行 调用 _exit 系统 调用 。 
code/ecf/hello-asm64.sa 


| .Section .data 
2 string: 
和 .ascii "hello, world\n" 
4 string_end: 
5 .equ len, string_end - string 
6 .Section .text 
7 .globl main 
8 main: 
Firets call witett, "hallos vorld\n’”, 13) 
9 movq $1, %rax write is system call 1 
10 movd $1, %rdi Argl: stdout has descriptor 1 
i movq $string, %rsi Arg2: hello world string 
便 movd $len, %rdx Arg3: string length 
3 syscall Make the system call 
Next, call _exit (0) 
14 movq $60, %rax _exit is System call 60 
15 movd $0, %rdi Arpgil: exit status js 0 
16 syscall Make the system call 


code/ecf/hello-asm64.sa 
图 8-11 直接 用 Linux 系统 调用 来 实现 hello 程序 
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国 洒 关于 术语 的 注释 

各 种 异常 类 型 的 术语 根据 系统 的 不 同 而 有 所 不 同 。 处 理 器 ISA 规范 通常 会 区 分 异步 
“中 断 ” 和 同步 “异常 ?”， 但 是 并 没有 提供 描述 这 些 非常 相似 的 概念 的 概括 性 的 术语 。 为 
了 避免 不 断 地 提 到 “异常 和 中 断 ” 以 及 “异常 或 者 中 断 ”， 我 们 用 单词 “异常 ”作为 通 
用 的 术语 ， 而 且 只 有 在 必要 时 才 区 别 异 步 异 常 ( 中 断 ) 和 同步 异常 (陷阱 、 故 障 和 终止 )。 
正如 我 们 提 到 过 的 ， 对 于 每 个 系统 而 言 ， 基 本 的 概念 都 是 相同 的 ， 但 是 你 应 该 意识 到 一 
些 制 造 厂商 的 手册 会 用 “异常 ”仅仅 表示 同步 事件 引起 的 控制 流 的 改变 。 


8.2 进程 

异常 是 允许 操作 系统 内 核 提 供 进程 (process) 概 念 的 基本 构造 块 ， 进 程 是 计算 机 科学 中 
最 深刻 、 最 成 功 的 概念 之 一 。 

在 现代 系统 上 运行 一 个 程序 时 ， 我 们 会 得 到 一 个 假象 ， 就 好 像 我 们 的 程序 是 系统 中 当 
前 运行 的 唯一 的 程序 一 样 。 我 们 的 程序 好 像 是 独占 地 使 用 处 理 器 和 内 存 。 处 理 器 就 好 像 是 
无 间断 地 一 条 接 一 条 地 执行 我 们 程序 中 的 指令 。 最 后 ， 我 们 程序 中 的 代码 和 数据 好 像 是 系 
统 内 存 中 唯一 的 对 象 。 这 些 假象 都 是 通过 进程 的 概念 提供 给 我 们 的 。 

进程 的 经 典 定义 就 是 一 个 执行 中 程序 的 实例 。 系 统 中 的 每 个 程序 都 运行 在 某 个 进程 的 
上 下 文 (context) 中 。 上 下 文 是 由 程序 正确 运行 所 需 的 状态 组 成 的 。 这 个 状态 包括 存放 在 内 
存 中 的 程序 的 代码 和 数据 ， 它 的 栈 、 通 用 目的 寄存 器 的 内 容 、 程 序 计数 器 、 环 境 变量 以 及 
打开 文件 描述 符 的 集合 。 

每 次 用 户 通过 向 shell 输入 一 个 可 执行 目标 文件 的 名 字 ， 和 运行 程序 时 ，shell 就 会 创建 
一 个 新 的 进程 ， 然 后 在 这 个 新 进程 的 上 下 文中 运行 这 个 可 执行 目标 文件 。 应 用 程序 也 能 够 
创建 新 进程 ， 并 且 在 这 个 新 进程 的 上 下 文中 运行 它们 自己 的 代码 或 其 他 应 用 程序 。 

关于 操作 系统 如 何 实现 进程 的 细节 的 讨论 超出 了 本 书 的 范围 。 反 之 ,我 们 将 关注 进程 
提供 给 应 用 程序 的 关键 抽象 : 

e 一 个 独立 的 逻辑 控制 流 ， 它 提供 一 个 假象 ， 好 像 我 们 的 程序 独占 地 使 用 处 理 器 。 

e 一 个 私有 的 地 址 空间 ， 它 提供 一 个 假象 ， 好 像 我 们 的 程序 独占 地 使 用 内 存 系统 。 
让 我 们 更 深入 地 看 看 这 些 抽象 。 


8.2. 1 逻辑 控制 流 


即使 在 系统 中 通常 有 许多 其 他 程序 在 运行 ， 进 程 也 可 以 向 每 个 程序 提供 一 种 假象 ， 好 
像 它 在 独占 地 使 用 处 理 器 。 如 果 想 用 调试 器 单 步 执行 程序 ， 我 们 会 看 到 一 系列 的 程序 计数 


器 (PC) 的 值 ， 这 些 值 唯一 地 对 应 于 包含 进程 A 进程 B 进程 C 
在 程序 的 可 执行 目标 文件 中 的 指令 ,或 | 
是 包含 在 运行 时 动态 链接 到 程序 的 共享 | 
对 保利 的 指 学 。 刘 个 PC 信 的 序 训 叫做 适时 |。 earsahaoalocenoresns EE 
妆 妆 机 六 3 或 省 前 这 过 关注 | 
考虑 一 个 运行 着 三 个 进程 的 系统 ， | ed he 
如 图 8-12 所 示 。 处 理 器 的 一 个 物理 控制 Lid 
流 被 分 成 了 三 个 逻辑 流 ， 每 个 进程 一 个 。 图 8-12 涩 辑 控制 流 。 进程 为 每 个 程序 提供 了 一 种 信介 
每 个 竖 直 的 条 表示 一 个 进程 的 逻辑 流 的 好 像 程 序 在 独占 地 使 用 处 理 器 。 每 个 竖 直 的 条 


一 部 分 。 在 这 个 例子 中 ， 三 个 逻辑 流 的 表示 一 个 进程 的 逻辑 控制 流 的 一 部 分 
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图 8-12 的 关键 点 在 于 进程 是 轮流 使 用 处 理 器 的 。 每 个 进程 执行 它 的 流 的 一 部 分 ， 然 
后 被 抢占 (preempted) (暂时 挂 起 ) ， 然 后 轮 到 其 他 进程 。 对 于 一 个 运行 在 这 些 进 程 之 一 的 
上 下 文中 的 程序 ， 它 看 上 去 就 像 是 在 独占 地 使 用 处 理 器 。 唯 一 的 反面 例证 是 ， 如 果 我 们 精 
确 地 测量 每 条 指令 使 用 的 时 间 ， 会 发 现在 程序 中 一 些 指 令 的 执行 之 间 ，CPU 好 像 会 周期 
性 地 停顿 。 然 而 ， 每 次 处 理 器 停顿 ， 它 随后 会 继续 执行 我 们 的 程序 ， 并 不 改变 程序 内 存 位 
置 或 寄存 器 的 内 容 。 


8.2.2 并 发 流 


计算 机 系统 中 逻辑 流 有 许多 不 同 的 形式 。 蜡 常 处 理 程序 、 进 程 、 信 和 号 处 理 程 序 、 线 程 
和 Java 进程 都 是 逻辑 流 的 例子 。 

一 个 逻辑 流 的 执行 在 时 间 上 与 另 一 个 流 重 又 ， 称 为 并 发 流 (concurrent flow)， 这 两 个 
流 被 称 为 并 发 地 运行 。 更 准确 地 说 ， 流 XX 和 YY 互相 并 发 ， 当 且 仅 当 义 在 YY 开始 之 后 和 六 
结束 之 前 开始 ,或 者 Y 在 XX 开 始 之 后 和 XX 结束 之 前 开始 。 例 如 ， 图 8-12 中 ,进程 A 和 B 
并 发 地 运行 ，A 和 C 也 一 样 。 另 一 方面 ，B 和 C 没有 并 发 地 运行 ， 因 为 也 的 最 后 一 条 指令 
在 C 的 第 一 条 指令 之 前 执行 。 

多 个 流 并 发 地 执行 的 一 般 现象 被 称 为 并 发 (concurrency) 。 一 个 进程 和 其 他 进程 轮流 运 
行 的 概念 称 为 多 任务 (multitasking) 。 一 个 进程 执行 它 的 控制 流 的 一 部 分 的 每 一 时 间 段 叫 
做 时 间 片 (time slice) 。 因 此 ， 多 任务 也 叫做 时 间 分 片 (time slicing)。 例 如 ， 图 8-12 中 ， 进 
程 A 的 流 由 两 个 时 间 片 组 成 。 

注意 ， 并 发 流 的 思想 与 流 运 行 的 处 理 器 核 数 或 者 计算 机 数 无 关 。 如 果 两 个 流 在 时 间 上 
重合 ， 那 么 它们 就 是 并 发 的 ， 即 使 它们 是 运行 在 同一 个 处 理 器 上 。 不 过 ， 有 时 我 们 会 发 现 
确认 并 行 流 是 很 有 帮助 的 ， 它 是 并 发 流 的 一 个 真子 集 。 如 果 两 个 流 并 发 地 运行 在 不 同 的 处 
理 器 核 或 者 计算 机 上 ， 那 么 我 们 称 它们 为 并 行 流 (parallel flow)， 它 们 并 行 地 运行 (running 
in parallel) ， 且 并 行 地 执行 (parallel execution ) 。 

FB 练习 题 8. 1 考虑 三 个 具有 下 述 起 始 和 结束 时 间 的 进程 ， 
































| 进程 起 始 时 间 结束 时 间 | 
A 0 2 
B 1 4 
& 3 和 

对 于 每 对 进程 ， 指 出 它们 是 否 是 并 发 地 运行 : 

进程 对 并 发 的 ? | 

















| AB 
AC 
BC | 
8.2.3 私有 地 址 空间 


进程 也 为 每 个 程序 提供 一 种 假象 ， 好 像 它 独占 地 使 用 系统 地 址 空间 。 在 一 台 n 位 地 址 
的 机 右上 ， 地 址 空间 是 2" 个 可 能 地 址 的 集合 ， 0，1， wet 2 进程 为 每 个 程序 提供 它 
自己 的 私有 地 址 空间 。 一 般 而 言 ， 和 这 个 空间 中 某 个 地 址 相关 联 的 那个 内 存 字 节 是 不 能 被 
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其 他 进程 读 或 者 写 的 ， 从 这 个 意义 上 说 ， 这 个 地 址 空间 是 私有 的 。 
尽管 和 每 个 私有 地 址 空间 相关 联 的 内 存 的 内 容 一 般 是 不 同 的 ， 但 是 每 个 这 样 的 空间 都 
有 相同 的 通用 结构 。 比 如 ， 图 8-13 展示 了 一 个 x86-64 Linux 进程 的 地 址 空间 的 组 织 结构 。 
地 址 空间 底部 是 保留 给 用 户 程序 的 ， 包 括 通常 的 代码 、 数 据 、 堆 和 栈 段 。 代 码 段 总 是 
从 地 址 0x400000 开始 。 地 址 空间 顶部 保留 给 内 核 (操作 系统 常 驻 内 存 的 部 分 )。 地 址 空间 
的 这 个 部 分 包含 内 核 在 代表 进程 执行 指令 时 (比如 当 应 用 程序 执行 系统 调用 时 ) 使 用 的 代 
内 核 虚拟 内 存 


(代码 、 数 据 、 堆 、 栈 ) 用 户 代 码 不 可 见 
的 内 存 


用 户 栈 
(运行 时 创建 的 ) 


< 一 %esp ( 栈 指针 ) 


<4— brk 
运行 时 堆 
(用 malloc 创建 的 ) 
从 可 执行 
文件 加 载 的 


0x00400000 一 
0 a 





图 8-13 进程 地 址 空间 


8.2.4 用 户 模 式 和 内 核 模式 


为 了 使 操作 系统 内 核 提供 一 个 无 懈 可 击 的 进程 抽象 ， 处 理 器 必须 提供 一 种 机 制 ， 限 制 
一 个 应 用 可 以 执行 的 指令 以 及 它 可 以 访问 的 地 址 空间 范围 。 

处 理 器 通常 是 用 某 个 控制 寄存 器 中 的 一 个 模式 位 (mode bit) 来 提供 这 种 功能 的 ， 该 寄 
存 器 描述 了 进程 当前 享有 的 特权 。 当 设置 了 模式 位 时 ， 进 程 就 运行 在 内 核 模 式 中 (有 时 叫 
做 超级 用 户 模 式 )。 一 个 运行 在 内 核 模式 的 进程 可 以 执行 指令 集中 的 任何 指令 ， 并且 可 以 
访问 系统 中 的 任何 内 存 位 置 。 

没有 设置 模式 位 时 ， 进 程 就 运行 在 用 户 模式 中 。 用 户 模式 中 的 进程 不 允许 执行 特权 指令 
(privileged instruction) ， 比 如 停止 处 理 器 、 改 变 模式 位 ， 或 者 发 起 一 个 IO 操作 。 也 不 允许 
用 户 模式 中 的 进程 直接 引用 地 址 空间 中 内 核 区 内 的 代码 和 数据 。 任 何 这 样 的 尝试 都 会 导致 到 
命 的 保护 故障 。 反 之 ， 用 户 程序 必须 通过 系统 调用 接口 间接 地 访问 内 核 代 码 和 数据 。 

运行 应 用 程序 代码 的 进程 初始 时 是 在 用 户 模式 中 的 。 进 程 从 用 户 模式 变 为 内 核 模 式 的 
唯一 方法 是 通过 诸如 中 断 、 故 障 或 者 陷 和 人 系统 调用 这 样 的 异常 。 当 异常 发 生 时 ， 控 制 传递 
到 异常 处 理 程序 ， 处 理 器 将 模式 从 用 户 模式 变 为 内 核 模式 。 处 理 程序 运行 在 内 核 模 式 中 ， 
当 它 返回 到 应 用 程序 代码 时 ， 人 处理 器 就 把 模式 从 内 核 模 式 改 回 到 用 户 模 式 。 

Linux 提供 了 一 种 聪明 的 机 制 ， 叫 做 /proc 文件 系统 ， 它 允许 用 户 模 式 进程 访问 内 核 数 
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” 据 结构 的 内 容 。/proc 文件 系统 将 许多 内 核 数据 结构 的 内 容 输出 为 一 个 用 户 程序 可 以 读 的 文 
“本 文件 的 层次 结构 。 比 如 ， 你 可 以 使 用 /proc 文件 系统 找 出 一 般 的 系统 属性 ， 比 如 CPU 类 型 


(/proc/cpuinfo)， 或 者 某 个 特殊 的 进程 使 用 的 内 存 段 (/proc/<process-id> /maps)。2.6 
版 本 的 Linux 内 核 引 入 /sys 文件 系统 ， 它 输出 关于 系统 总 线 和 设备 的 额外 的 低层 信息 。 


8 2.5 上 下文 切 换 


操作 系统 内 核 使 用 一 种 称 为 上 下 文 切 换 (context switch) 的 较 高 层 形式 的 异常 控制 流 来 实 
现 多 任务 。 上 下 文 切换 机 制 是 建立 在 8. 1 节 中 已 经 讨论 过 的 那些 较 低 层 异 常 机 制 之 上 的 。 

内 核 为 每 个 进程 维持 一 个 上 下 文 (context)。 上 下 文 就 是 内 核 重 新 启动 一 个 被 抢占 的 进 

程 所 需 的 状态 。 它 由 一 些 对 象 的 值 组 成 ， 这 些 对 象 包括 通用 目的 寄存 器 、 浮 点 寄存 器 、 程 

序 计 数 器 、 用 户 栈 、 状 态 寄存 器 、 内 核 栈 和 各 种 内 核 数 据 结 构 ， 比 如 描述 地 址 空间 的 页 

表 、 包 含有 关 当 前 进程 信息 的 进程 表 ， 以 及 包含 进程 已 打开 文件 的 信息 的 文件 表 。 

在 进程 执行 的 某 些 时 刻 ， 内 核 可 以 决定 抢占 当前 进程 ， 并 重新 开始 一 个 先前 被 抢占 了 
的 进程 。 这 种 决策 就 叫做 调度 (scheduling)， 是 由 内 核 中 称 为 调度 器 (scheduler) 的 代码 处 
理 的 。 当 内 核 选 择 一 个 新 的 进程 运行 时 ， 我 们 说 内 核 调度 了 这 个 进程 。 在 内 核 调度 了 一 个 
新 的 进程 运行 后 ， 它 就 抢占 当前 进程 ， 并 使 用 一 种 称 为 上 下 文 切 换 的 机 制 来 将 控制 转移 到 
新 的 进程 ， 上 正文 切换 1) 保 存 当 前 进程 的 上 下 文 ，2) 恢 复 某 个 先前 被 抢占 的 进程 被 保存 的 
上 下 文 ，3) 将 控制 传递 给 这 个 新 恢复 的 进程 。 

当 内 核 代 表 用 户 执行 系统 调用 时 ， 可 能 会 发 生 上 下 文 切换 。 如 果 系 统 调用 因为 等 待 某 
个 事件 发 生 而 阻塞 ， 那 么 内 核 可 以 让 当前 进程 休眠 ， 切 换 到 另 一 个 进程 。 比 如 ， 如 果 一 个 
read 系统 调用 需要 访问 磁盘 ， 内 核 可 以 选择 执行 上 下 文 切换 ， 运 行 另 外 一 个 进程 ， 而 不 
是 等 待 数据 从 磁盘 到 达 。 另 一 个 示例 是 sleep 系统 调用 ， 它 显 式 地 请 求 让 调用 进程 休眠 。 
一 般 而 言 ， 即 使 系统 调用 没有 阻塞 ， 内 核 也 可 以 决定 执行 上 下 文 切换 ， 而 不 是 将 控制 返回 
给 调用 进程 。 

中 断 也 可 能 引发 上 下 文 切 换 。 比 如 ， 所 有 的 系统 都 有 某 种 产生 周期 性 定时 器 中 断 的 机 
制 ， 通 常 为 每 1 毫秒 或 每 10 毫秒 。 每 次 发 生 定 时 器 中 断 时 ， 内 核 就 能 判定 当前 进程 已 经 
运行 了 足够 长 的 时 间 ， 并 切换 到 一 个 新 的 进程 。 

图 8-14 展示 了 一 对 进程 A 和 B 之 间 上 下 文 切 换 的 示例 。 在 这 个 例子 中 ， 进 程 A 初始 
运行 在 用 户 模 式 中 ， 直 到 它 通 过 执行 系统 调用 read 陷入 到 内 核 。 内 核 中 的 陷阱 处 理 程序 
请 求 来 自 磁盘 控制 器 的 DMA 传输 ， 并 且 安 排 在 磁盘 控制 器 完成 从 磁盘 到 内 存 的 数据 传输 
后 ， 磁 盘 中 断 处理 器 。 


时 间 进程 A ”! ”进程 B 
| 用 户 模式 


内 核 模式 } 上 下 文 切换 


} 上 下 文 切换 





图 8-14 进程 上 下 文 切 换 的 剖析 
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磁盘 取 数 据 要 用 一 段 相对 较 长 的 时 间 ( 数 量 级 为 几 十 毫秒 ) ， 所 以 内 核 执 行 从 进程 A 到 
进程 也 的 上 下 文 切 换 ， 而 不 是 在 这 个 间歇 时 间 内 等 待 ， 什 么 都 不 做 。 注 意 在 切换 之 前 ， 内 
核 正 代表 进程 A 在 用 户 模式 下 执行 指令 ( 即 没有 单独 的 内 核 进程 )。 在 切换 的 第 一 部 分 中 ， 
内 核 代表 进程 A 在 内 核 模式 下 执行 指令 。 然 后 在 某 一 时 刻 ， 它 开始 代表 进程 B( 仍 然 是 内 
核 模式 下 ) 执 行 指令 。 在 切换 之 后 ， 内 核 代 表 进 程 B 在 用 户 模 式 下 执行 指令 。 

随后 ， 进 程 B 在 用 户 模 式 下 运行 一 会 儿 ， 直 到 磁盘 发 出 一 个 中 断 信 号 ， 表 示 数 据 已 经 
从 磁盘 传送 到 了 内 存 。 内 核 判 定 进程 B 已 经 运行 了 足够 长 的 时 间 ， 就 执行 一 个 从 进程 B 到 
进程 A 的 上 下 文 切换 ， 将 控制 返回 给 进程 A 中 紧 随 在 系统 调用 read 之 后 的 那 条 指令 。 进 
程 A 继续 运行 ， 直 到 下 一 次 异常 发 生 ， 依 此 类 推 。 


8.3 系统 调用 错误 处 理 


当 Unix 系统 级 函数 遇 到 错误 时 ， 它 们 通常 会 返回 一 1， 并 设置 全 局 整数 变量 errno 
来 表示 什么 出 错 了 。 程 序 员 应 该 总 是 检查 错误 ， 但 是 不 幸 的 是 ， 许 多 人 都 忽略 了 错误 检 
查 ， 因 为 它 使 代码 变 得 爱 肿 ， 而 且 难 以 读 懂 。 比 如 ， 下 面 是 我 们 调用 Unix fork 函数 时 会 
如 何 检查 错误 : 


1 if ((pid = fork()) < 0) { 

2 fprintf (stderr, "fork error: %s\n", strerror(errno)); 
3 exit (0); 

} 


strerror 消 数 返回 一 个 文本 串 ， 描 述 了 和 茶 个 errno 值 相关 联 的 错误 。 通 过 定义 下 
面 的 错误 报告 函数 ， 我 们 能 够 在 某 种 程度 上 简化 这 个 代码 : 


1 Void unix_error(char *msg) /* Unix-style error */ 

2 <« 

3 fprintf (stderr, "%s: %s\n", msg, strerror(errno)); 
4 exit (0); 

5 } 


给 定 这 个 函数 ,我们 对 fork 的 调用 从 4 行 缩减 到 2 行 : 

1 if ((pid = fork()) < 0) 

2 Wnix_error('"fork error'); 

通过 使 用 错误 处 理 包装 函数 ， 我 们 可 以 更 进一步 地 简化 代码 ，Stevens 在 [110] 中 首先 
提出 了 这 种 方法 。 对 于 一 个 给 定 的 基本 函数 foo， 我 们 定义 一 个 具有 相同 参数 的 包装 函数 
Foo， 但 是 第 一 个 字母 大 写 了 。 包 装 函 数 调用 基本 函数 ， 检 查 错 误 ， 如 果 有 任何 问题 就 终 
止 。 比 如 ， 下面 是 fork 函数 的 错误 处 理 包装 函数 : 


pid_t Fork(void) 


1 

2 六 

3 Pid_t pid; 

4 

5 if ((pid = fork()) < 0) 

6 unix_error("Fork error'); 
六 return Pid; 

8 3} 


给 定 这 个 包装 函数 ， 我 们 对 fork 的 调用 就 缩减 为 1 行 : 
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人 pid = Fork(); 


我 们 将 在 本 书 剩余 的 部 分 中 都 使 用 错误 处 理 包装 函数 。 它 们 能 够 保持 代码 示例 简洁 ， 而 
又 不 会 给 你 错误 的 假象 ， 认 为 允许 忽略 错误 检查 。 注 意 ， 当 在 本 书 中 谈 到 系统 级 函数 时 ， 我 
们 总 是 用 它们 的 小 写字 母 的 基本 名 字 来 引用 它们 ， 而 不 是 用 它们 大 写 的 包装 函数 名 来 引用 。 

关于 Unix 错误 处 理 以 及 本 书 中 使 用 的 错误 处 理 包 装 函 数 的 讨论 ， 请 参见 附录 A。 包 
装 函 数 定义 在 一 个 叫做 csapp.c 的 文件 中 ， 它 们 的 原型 定义 在 一 个 叫做 csapp.h 的 头 文 
件 中 ; 可 以 从 CS:APP 网 站 上 在 线 地 得 到 这 些 代码 。 


8.4 进程 控制 
Unix 提供 了 大 量 从 C 程序 中 操作 进程 的 系统 调用 。 这 一 节 将 描述 这 些 重要 的 函数 ， 
并 举例 说 明 如 何 使 用 它们 。 
8.4.1 获取 进程 ID 
每 个 进程 都 有 一 个 唯一 的 正 数 ( 非 零 ) 进 程 ID(PID)。getpid 函数 返回 调用 进程 的 PID。 
getppid 函数 返回 它 的 父 进程 的 PID( 创 建 调用 进程 的 进程 ) 。 
#include <sys/types.h> 
#include <unistd.h> 


pid_t getpid(void); 
pid_t getppid(void); 








返回 : 调用 者 或 其 父 进程 的 PID。 


getpid 和 getppid 函数 返回 一 个 类 型 为 pid_t 的 整数 值 ， 在 Linux 系统 上 它 在 
types.h 中 被 定义 为 int。 


8.4.2 创建 和 终止 进程 


从 程序 员 的 角度 ， 我 们 可 以 认为 进程 总 是 处 于 下 面 三 种 状态 之 一 : 

e 运行 。 进 程 要 么 在 CPU 上 执行 ， 要么 在 等 待 被 执行 且 最 终 会 被 内 核 调度 。 

e 停止 。 进 程 的 执行 被 挂 起 (suspended)， 且 不 会 被 调度 。 当 收 到 SIGSTOP、SIGT- 
STP、SIGTTIN 或 者 SIGTTOU 信号 时 ， 进 程 就 停止 并且 保持 停止 直到 它 收 到 
一 个 SIGCONT 信号 ， 在 这 个 时 刻 ， 进 程 再 次 开始 运行 。( 信 号 是 一 种 软件 中 断 的 
形式 ， 将 在 8.5 节 中 详细 描述 。) 

@ 终止 。 进 程 永远 地 停止 了 。 进 程 会 因为 三 种 原因 终止 : 1) 收 到 一 个 信和 号， 该 信号 的 
默认 行为 是 终止 进程 ，2) 从 主 程序 返回 ，3) 调 用 exit 函数 。 











#include “stdlib .h> 


void exit(int status); 





该 函数 不 返回 。 





exit 函数 以 status 退出 状态 来 终止 进程 ( 另 一 种 设置 退出 状态 的 方法 是 从 主 程序 中 
返回 一 个 整数 值 )。 
父 进程 通过 调用 fork 函数 创建 一 个 新 的 运行 的 子 进程 。 
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#include <sys/types.h> 
#include <unistd.h> 


pid_t fork(void); 
返回 : 子 进程 返回 0， 父 进程 返回 子 进程 的 PID， 如 果 出 错 ， 则 为 一 1。 





新 创建 的 子 进程 几乎 但 不 完全 与 父 进程 相同 。 子 进程 得 到 与 父 进程 用 户 级 虚拟 地 址 空间 相 
同 的 (但 是 独立 的 ) 一 份 副本 ， 包 括 代码 和 数据 段 、 堆 、 共 享 库 以 及 用 户 栈 。 子 进程 还 获得 与 父 
进程 任何 打开 文件 描述 符 相 同 的 副本 ， 这 就 意味 着 当 父 进程 调用 fork 时 ， 子 进程 可 以 读 写 父 
进程 中 打开 的 任何 文件 。 父 进程 和 新 创建 的 子 进程 之 间 最 大 的 区 别 在 于 它们 有 不 同 的 PID。 

fork 函数 是 有 趣 的 (也 常常 令 人 迷惑 )， 因 为 它 只 被 调用 一 次 ， 却 会 返回 两 次 : 一 次 
是 在 调用 进程 ( 父 进程 ) 中 ， 一 次 是 在 新 创建 的 子 进 程 中 。 在 父 进程 中 ，fork 返回 子 进程 
的 PID。 在 子 进程 中 ，fork 返回 0。 因 为 子 进程 的 PID 总 是 为 非 零 ， 返 回 值 就 提供 一 个 明 
确 的 方法 来 分 辩 程序 是 在 父 进程 还 是 在 子 进程 中 执行 。 

8-15 展示 了 一 个 使 用 fork 创建 子 进程 的 父 进程 的 示例 。 当 fork 调用 在 第 6 行 返 
回 时 ， 在 父 进程 和 子 进程 中 x 的 值 都 为 1。 子 进程 在 第 8 行 加 一 并 输出 它 的 x 的 副本 。 相 
似 地 ， 父 进程 在 第 13 行 减 一 并 输出 它 的 x 的 副本 。 


code/ecf/fork.c 
1 int main() 
2 
3 pid_t pid; 
4 int x =: Ls 
5 
6 pid = Fork(); 
六 if (pid == 0) { /* Child */ 
8 printf("child : x=%d\n", ++x); 
9 exit (0); 
10 上 
11 
12 /* Parent */ 
13 printf("parent: x=%d\n", —-x); 
14 exit (0); 
禄 浊 
code/ecf/fork.c 


图 8-15 使 用 fork 创建 一 个 新 进程 
当 在 Unix 系统 上 运行 这 个 程序 时 ， 我 们 得 到 下 面 的 结果 : 


linux> ./fork 

parent: x=0 

child : x=2 

这 个 简单 的 例子 有 一 些微 妙 的 方面 。 

@ 调用 一 次 ， 返 回 两 次 。fork 函数 被 父 进程 调 用 一 次 ， 但 是 却 返回 两 次 一 一 一 次 是 
返回 到 父 进 程 ， 一 次 是 返回 到 新 创建 的 子 进程 。 对 于 只 创建 一 个 子 进 程 的 程序 来 
说 ， 这 还 是 相当 简单 直接 的 。 但 是 具有 多 个 fork 实例 的 程序 可 能 就 会 今 人 迷惑 ， 
需要 仔细 地 推荐 了 。 

e@ 并 发 执行 。 父 进程 和 子 进程 是 并 发 运行 的 独立 进程 。 内 核能 够 以 任意 方式 交替 执行 
它们 的 逻辑 控制 流 中 的 指令 。 在 我 们 的 系统 上 运行 这 个 程序 时 ， 父 进程 先 完成 它 的 
printf 语句， 然后 是 子 进程 。 然 而 ， 在 另 一 个 系统 上 可 能 正好 相反 。 一 般 而 言 ， 
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作为 程序 员 ， 我 们 决 不 能 对 不 同 进程 中 指令 的 交替 执行 做 任何 假设 。 
@ 相同 但 是 独立 的 地 址 空间 。 如 果 能 够 在 fork 函数 在 父 进 程 和 子 进 程 中 返回 后 立即 
暂停 这 两 个 进程 ， 我 们 会 看 到 两 个 进程 的 地 址 空间 都 是 相同 的 。 每 个 进程 有 相同 的 
用 户 栈 、 相 同 的 本 地 变量 值 、 相 同 的 堆 、 相 同 的 全 局 变量 值 ， 以 及 相同 的 代码 。 因 
此 ， 在 我 们 的 示例 程序 中 ， 当 fork 函数 在 第 6 行 返回 时 ， 本 地 变量 x 在 父 进 程 和 
子 进 程 中 都 为 1。 然 而， 因为 父 进程 和 子 进 程 是 独立 的 进程 ， 它 们 都 有 自己 的 私有 
地 址 空间 。 后 面 ， 父 进程 和 子 进程 对 x 所 做 的 任何 改变 都 是 独立 的 ， 不 会 反映 在 另 

一 个 进程 的 内 存 中 。 这 就 是 为 什么 当 父 进程 和 子 进 程 调用 它们 各 自 的 printf 语句 
时 ， 它 们 中 的 变量 x 会 有 不 同 的 值 。 
共享 文件 。 当 运行 这 个 示例 程序 时 ， 我 们 注意 到 父 进 程 和 子 进程 都 把 它们 的 输出 显 
示 在 屏幕 上 。 原 因 是 子 进程 继承 了 父 进 程 所 有 的 打开 文件 。 当 父 进程 调用 fork 时 ， 
stdout 文件 是 打开 的 ， 并 指向 屏幕 。 子 进程 继承 了 这 个 文件 ， 因 此 它 的 输出 也 是 
指向 屏幕 的 。 

如 果 你 是 第 一 次 学 习 fork 函数 ， 画 进程 图 通常 会 有 所 帮助 ， 进 程 图 是 刻画 程序 语句 的 
偏 序 的 一 种 简单 的 前 趋 图 。 每 个 顶点 a 对 应 于 一 条 程序 语句 的 执行 。 有 向 边 -2 表示 语句 a 
发 生 在 语句 5 之 前 。 边 上 可 以 标记 出 一 些 信息 ,例如 一 个 变量 的 当前 值 。 对 应 于 printf 语 
名 的 顶点 可 以 标记 上 printf 的 输出 。 每 张 图 从 一 个 顶点 开始 ， 对 应 于 调用 main 的 父 进程 。 





这 个 顶点 没有 入 边 ， 并 且 只 有 一 个 出 边 。 每 个 进程 的 顶点 序列 结束 于 一 个 对 应 于 exit 调用 
的 顶点 。 这 个 顶点 只 有 一 条 人 边 ， 没 有 出 边 。 

例如 ， 图 8-16 展示 了 图 8-15 中 示例 程序 ee cr 。 子 进 和 
的 进程 图 。 初 始 时 ， 父 进程 将 变量 x 设置 为 ,I | parent: va 
1, 父 进 程 调用 fork, 创建 一 个 子 进程 ， 它 main EG Bele exit Se 


在 自己 的 私有 地 址 空间 中 与 父 进 程 并 发 执行 

对 于 运行 在 单 处 理 器 上 的 程序 ， 对 应 进 
程 图 中 所 有 顶点 的 拓扑 排序 (topological sort) 表 示 程 序 中 语句 的 一 个 可 行 的 全 序 排 列 。 下 
面 是 一 个 理解 拓扑 排序 概念 的 简单 方法 : 给 定 进程 图 中 顶点 的 一 个 排列 ， 把 顶点 序列 从 左 
到 右 写 成 一 行 ， 然 后 画 出 每 条 有 向 边 。 排 列 是 一 个 拓扑 排序 ， 当 且 仅 当 画 出 的 每 条 边 的 方 
向 都 是 从 左 往 右 的 。 因 此 ， 在 图 8-15 的 示例 程序 中 ， 父 进程 和 子 进 程 的 printf 语句 可 以 
以 任意 先后 顺序 执行 ， 因 为 每 种 顺序 都 对 应 于 图 顶点 的 某 种 拓扑 排序 。 

进程 图 特别 有 助 于 理解 带 有 骨 套 fork 调用 的 程序 。 例 如 ， 图 8-17 中 的 程序 源码 中 两 
次 调用 了 fork。 对 应 的 进程 图 可 帮助 我 们 看 清 这 个 程序 运行 了 四 个 进程 ， 每 个 都 调用 了 

一 次 printf， 这 些 printf 可 以 以 任意 顺序 执行 。 


图 8-16 图 8-15 中 示例 程序 的 进程 图 
















1 int main() hello 

2 { printf exit 
3 Fork(); hello 

4 Fork(); 

5 printf ("hello\n'); printf exit 
6 exit (0); hello 

7 上 少 


printf exit 





hello 


main fork fork printf exit 


图 8-17 崩 套 fork 的 进程 图 
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习 练习 题 8.2 考虑 下 面 的 程序 ， 


codeecjforkprop0c 
1 int main() 
及 入 
3 int x = 1; 
4 
5 if (Fork() == 0) 
6 printf("pl: x=%d\n", ++x); 
7 printf("p2: x=%d\n", --x); 
8 exit (0); 
% 二 
code/ecf/forkprob0.c 


A. 子 进程 的 输出 是 什么 ? 
B. 父 进 程 的 输出 是 什么 ? 


8. 4.3 回收 子 进程 


当 一 个 进程 由 于 某 种 原因 终止 时 ， 内 核 并 不 是 立即 把 它 从 系统 中 清除 。 相 反 ， 进 程 被 
保持 在 一 种 已 终止 的 状态 中 ， 直 到 被 它 的 父 进程 回收 (reaped)。 当 父 进 程 回收 已 终止 的 子 
进程 时 ， 内 核 将 子 进程 的 退出 状态 传递 给 父 进 程 ， 然 后 抛弃 已 终止 的 进程 ， 从 此 时 开始 ， 
该 进程 就 不 存在 了 。 一 个 终止 了 但 还 未 被 回收 的 进程 称 为 伪 死 进程 (zombie) 。 


| 旁 注 | 为 什么 已 终止 的 子 进程 被 称 为 僵 死 进程 ? 
在 民间 传说 中 ， 僵 尸 是 活着 的 尸体 ， 一 种 半生 半死 的 实体 。 僵 死 进程 已 经 终止 了 ， 
而 内 核 仍 保 留 着 它 的 菜 些 状态 直到 父 进程 回收 它 为 止 ， 从 这 个 意义 上 说 它们 是 类 似 的 。 


如 果 一 个 父 进程 终止 了 ， 内 核 会 安排 init 进程 成 为 它 的 孤儿 进程 的 养父 。init 进程 
的 PID 为 1， 是 在 系统 启动 时 由 内 核 创建 的 ， 它 不 会 终止 ， 是 所 有 进程 的 祖先 。 如 果 父 进 
程 没 有 回收 它 的 僵 死 子 进 程 就 终止 了 ， 那 么 内 核 会 安排 init 进程 去 回收 它们 。 不 过 ,长 
时 间 运 行 的 程序 ， 比 如 shell 或 者 服务 器 ， 总 是 应 该 回收 它们 的 僵 死 子 进程 。 即 使 僵 死 子 
进程 没有 运行 ， 它 们 仍然 消耗 系统 的 内 存 资源 。 

一 个 进程 可 以 通过 调用 waitpid 函数 来 等 待 它 的 子 进程 终止 或 者 停止 。 








#include <sys/types.h> 
#include <sys/wait.h> 


pid_t waitpid(pid_t pid, int *statusp, int options); 
返回 : 如 果 成 功 ， 则 为 子 进程 的 PID， 如 果 WNOHANG， 则 为 0， 如 果 其 他 错误 ， 则 为 一 1。 











waitpid 困 数 有 点 复杂 。 默 认 情 况 下 ( 当 options=0 时 )，waitpid 挂 起 调用 进程 的 
执行 ， 直 到 它 的 等 待 集合 (wait set) 中 的 一 个 子 进程 终止 。 如 果 等 待 集合 中 的 一 个 进程 在 
刚 调用 的 时 刻 就 已 经 终止 了 ， 那 么 waitpid 就 立即 返回 。 在 这 两 种 情况 中 ，waitpid 返 
回 导 致 waitpid 返回 的 已 终止 子 进程 的 PID。 此 时 , 已 终止 的 子 进程 已 经 被 回收 ， 内 核 会 
从 系统 中 删除 掉 它 的 所 有 痕迹 。 

1. 判定 等 待 集合 的 成 员 

等 待 集合 的 成 员 是 由 参数 pid 来 确定 的 : 


第 8 章 异常 控制 流 517 





e 如 果 pid>0， 那 么 等 待 集合 就 是 一 个 单独 的 子 进程 ， 它 的 进程 ID 等 于 pig。 

e 如 果 pidq=-1， 那 么 等 待 集合 就 是 由 父 进程 所 有 的 子 进程 组 成 的 。 

waitpid 函数 还 支持 其 他 类 型 的 等 待 集合 ， 包 括 Unix 进程 组 ， 对 此 我 们 将 不 做 讨论 。 

2. 修改 默认 行为 

可 以 通过 将 options 设置 为 常量 WNOHANG、WUNTRACED 和 WCONTINUED 

的 各 种 组 合 来 修改 默认 行为 : 

e WNOHANG: 如 果 等 待 集合 中 的 任何 子 进程 都 还 没有 终止 ， 那么 就 立即 返回 (返回 
值 为 0) 。 默 认 的 行为 是 挂 起 调用 进程 ， 直 到 有 子 进 程 终止 。 在 等 待 子 进程 终止 的 同 
时 ， 如 果 还 想 做 些 有 用 的 工作 ， 这 个 选项 会 有 用 。 

e WUNTRACED: 挂 起 调用 进程 的 执行 ， 直 到 等 待 集合 中 的 一 个 进程 变 成 已 终止 或 者 
被 停止 。 返 回 的 PID 为 导致 返回 的 已 终止 或 被 停止 子 进程 的 PID。 默 认 的 行为 是 只 返 
回 已 终止 的 子 进程 。 当 你 想 要 检查 已 终止 和 被 停止 的 子 进程 时 ， 这 个 选项 会 有 用 。 

e WCONTINUED: 挂 起 调用 进程 的 执行 ， 直 到 等 待 集合 中 一 个 正在 运行 的 进程 终止 
或 等 待 集合 中 一 个 被 停止 的 进程 收 到 SIGCONT 信号 重新 开始 执行 。(8. 5 节 会 解释 
这 些 信号 。) 

可 以 用 或 运算 把 这 些 选项 组 合 起 来 。 例 如 : 

e WNOHANG | WUNTRACED: 立即 返回 ， 如 果 等 待 集合 中 的 子 进程 都 没有 被 停 
止 或 终止 ， 则 返回 值 为 0; 如果 有 一 个 停止 或 终止 ， 则 返回 值 为 该 子 进程 的 PID。 

3. 检查 已 回收 子 进程 的 退出 状态 

如 果 statusp 参数 是 非 空 的 ， 那 么 waitpid 就 会 在 status 中 放 上 关于 导致 返回 的 

子 进程 的 状态 信息 ，status 是 statusp 指向 的 值 。wait.h 头 文件 定义 了 解释 status 参 
数 的 几 个 宏 : 

e WIFEXITED(status): 如 果子 进程 通过 调用 exit 或 者 一 个 返回 (return) 正 常 终 
止 ， 就 返回 真 。 

se WEXITSTATUS(status): 返回 一 个 正常 终止 的 子 进 程 的 退出 状态 。 只 有 在 
WIFEXITEDC) 返 回 为 真 时 ， 才 会 定义 这 个 状态 。 

e WIFSIGNALED(status): 如 果子 进程 是 因为 一 个 未 被 捕获 的 信号 终止 的 ， 那 么 
就 返回 真 。 

e WTERMSIG(status): 返回 导致 子 进程 终止 的 信号 的 编号 。 只 有 在 WIFSIG- 
NALED(C) 返 回 为 真 时 ， 才 定义 这 个 状态 。 

“ @ WIFSTOPPED(status): 如 果 引 起 返回 的 子 进程 当前 是 停止 的 ， 那 么 就 返回 真 。 

e WSTOPSIG(Cstatus): 返回 引起 子 进程 停止 的 信号 的 编号 。 只 有 在 WIFSTOPPED() 
返回 为 真 时 ， 才 定义 这 个 状态 。 

e WIFCONTINUED( status): 如 果子 进程 收 到 SIGCONT 信号 重新 启动 ， 则 返回 真 。 

4. 错误 条 件 | 

如 果 调 用 进程 没有 子 进程 ， 那么 waitpid 返 回 一 1， 并 且 设 置 errno 为 ECHILD。 如 

果 waitpid 函数 被 一 个 信号 中 斯 ， 那 么 它 返 回 一 1]， 并 设置 errno 为 EINTR。 


区 要 和 Unix 函数 相关 的 常量 
像 WNOHANG 和 WUNTRACED 这 样 的 常量 是 由 系统 头 文件 定义 的 。 例 如 ，WNO- 
HANG 和 WUNTRACED 是 由 wait.h 头 文件 (间接 ) 定 义 的 : 








/* Bits in the third argument to 'waitpid'. */ 

#define WNOHANG 1 /* Don't block waiting. */ 

#define WUNTRACED 2 /* Report status of stopped children. */ 
为 了 使 用 这 些 常 量 ， 必 须 在 代码 中 包含 wait.h 头 文件 : 

#include <sys/wait.h> 
每 个 Unix 函数 的 man 页 列 出 了 无 论 何 时 你 在 代码 中 使 用 那个 函数 都 要 包含 的 头 文件 。 
同时 ， 为 了 检查 诸如 ECHILD 和 EINTR 之 类 的 返回 代码 ， 你 必须 包含 errno.h。 为 了 
简化 代码 示例 ， 我 们 包含 了 一 个 称 为 csapp.h 的 头 文件 ， 它 包括 了 本 书 中 使 用 的 所 有 
函数 的 头 文件 。csapp.h 头 文件 可 以 从 CS: APP 网 站 在 线 获 得 。 


ES 练习 题 8.3 列 出 下 面 程序 所 有 可 能 的 输出 序列 ， 


code/ecf/waitprob0.c 
1 int main() 
区 党 
3 if (Fork() == 0) { 
4 printf("a"); fflush(stdout); 
5 于 
6 else { 
7 printf("b"); fflush(stdout) ; 
8 waitpid(-1, NULL, 0); 
5 
10 printf("c"); fflush(stdout); 
11 exit (0); 
12 } 
code/ecf/waitprob0.c 
5. wait 函数 


wait 苹 数 是 waitpid 函数 的 简单 版 本 : 








#include <sys/types.h> 
#include <sys/wait.h> 


pid_t wait(int *statusp); 
返回 : 如 果 成 功 ， 则 为 子 进程 的 PID， 如 果 出 错 ， 则 为 一 1。 





调用 wait (gstatus) 等 价 于 调用 waitpid(- 1,&status,0)。 

6. 使 用 waitpid 的 示例 

因为 waitpid 函数 有 些 复 杂 ， 看 几 个 例子 会 有 所 帮助 。 图 8-18 展示 了 一 个 程序 , 它 
使 用 waitpid， 不 按照 特定 的 顺序 等 待 它 的 所 有 N 个 子 进程 终止 。 在 第 11 行 ， 父 进程 创 
建 N 个 子 进程 ， 在 第 12 行 ， 每 个 子 进 程 以 一 个 唯一 的 退出 状态 退出 。 在 我 们 继续 讲解 之 
前 ， 请 确认 你 已 经 理解 为 什么 每 个 子 进程 会 执行 第 12 行 ， 而 父 进程 不 会 。 

在 第 15 行 ， 父 进程 用 waitpid 作 为 while 循环 的 测试 条 件 ， 等 待 它 所 有 的 子 进 程 终 
止 。 因 为 第 一 个 参数 是 一 1， 所 以 对 waitpig 的 调用 会 阻塞 ， 直 到 任意 一 个 子 进 程 终止。 
在 每 个 子 进 程 终止 时 ， 对 waitpid 的 调用 会 返回 ， 返 回 值 为 该 子 进 程 的 非 零 的 PID。 第 
16 行 检查 子 进程 的 退出 状态 。 如 果子 进程 是 正常 终止 的 一 一 在 此 是 以 调用 exit 函数 终止 
的 一 一 那么 父 进程 就 提取 出 退出 状态 ， 把 它 输 出 到 stdout 上 。 
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code/ecf/waitpidl.c 
#include "csapp.h" 


1 

2 #define N 2 

3 

4 int main() 

入 

6 int status, i; 

7 pid_t pid; 

8 

9 /* Parent creates N children */ 

10 for (i = 0; 1 < N; it 

11 if ((pid = Fork()) == 0) /* Child */ 

12 exit (100+i); 

13 

14 /* Parent reaps N children in no particular order +*/ 

15 while ((pid = waitpid(-1, &status, 0)) > 0) { 

16 if (WIFEXITED(status)) 

ji printf("child %d terminated normally with exit status=%d\n", 
18 pid, WEXITSTATUS (status)); 

19 else 

20 printf("child %d terminated abnormally\n", pid); 
21 } 

22 

23 /* The only normal termination is if there are no more children */ 
24 if (errno != ECHILD) 

25 unix_error("waitpid error"); 

26 

27 exit (0); 

28: 册 


code/ecf/waitpidl.c 
图 8-18 使 用 waitpid 函数 不 按照 特定 的 顺序 回收 僵 死 子 进程 


当 回 收 了 所 有 的 子 进 程 之 后 ， 再 调用 waitpid 就 返回 一 1， 并 且 设 置 errno 为 
ECHILD。 第 24 行 检查 waitpid 函数 是 正常 终止 的 ， 否 则 就 输出 一 个 错误 消息 。 在 我 们 
的 Linux 系统 上 运行 这 个 程序 时 ， 它 产生 如 下 输出 : 


linux> ./waitpid1 
child 22966 terminated normally with exit status=100 
child 22967 terminated normally with exit status=101 


注意 ， 程 序 不 会 按照 特定 的 顺序 回收 子 进程 。 子 进程 回收 的 顺序 是 这 台 特 定 的 计算 机 
系统 的 属性 。 在 另 一 个 系统 上 ， 甚 至 在 同一 个 系统 上 再 执行 一 次 ， 两 个 子 进程 都 可 能 以 相 
反 的 顺序 被 回收 。 这 是 非 确 定性 行为 的 一 个 示例 ， 这 种 非 确定 性 行为 使 得 对 并 发 进行 推理 
非常 困难 。 两 种 可 能 的 结果 都 同样 是 正确 的 ， 作 为 一 个 程序 员 ， 你 绝 不 可 以 假设 总 是 会 出 
现 某 一 个 结果 ， 无 论 多 么 不 可 能 出 现 另 一 个 结果 。 唯 一 正确 的 假设 是 每 一 个 可 能 的 结果 都 


同样 可 能 出 现 。 
图 8-19 展示 了 一 个 简单 的 改变 ， 它 消除 了 这 种 不 确定 性 ， 按 照 父 进程 创建 子 进程 的 相同 
顺序 来 回收 这 些 子 进程 。 在 第 11 行 中 ， 父 进程 按照 顺序 存储 了 它 的 子 进程 的 PID， 然 后 通过 


用 适当 的 PID 作为 第 一 个 参数 来 调用 waitpid， 按 照 同样 的 顺序 来 等 待 每 个 子 进程 。 
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code/ecf/waitpid2.c 


#include "csapp.h" 
#define N 2 


int main() 


和 


int status, i; 
pid_t pid[N], retpid; 


/* Parent creates N children */ 
for (i = 0; i < N; i++) 
if ((pid[i] = Fork()) == 0) /* Child */ 
exit (100+i); 


/* Parent reaps N children in order */ 
i= 0; 
while ((retpid = waitpid(pid[i++], &status, 0)) > 0) { 
if (WIFEXITED(status)) 
printf("child %d terminated normally with exit status=%d\n', 
retpid, WEXITSTATUS (status)); 
else 
printf("child %d terminated abnormally\n", retpid); 
} 


/* The only normal termination is if there are no more children */ 
if (errno != ECHILD) 
unix_error("waitpid error"); 


exit (0); 


code/ecf/waitpid2.c 
图 8-19 使 用 waitpid 按 照 创建 子 进程 的 顺序 来 回收 这 些 僵 死 子 进程 


共 人 N 练习 题 8.4 考虑 下 面 的 程序 ， 


code/ecf/waitprobl.c 
int main() 


{ 
int status; 
Pid_t pid; 
printf("Hello\n"); 
pid = Fork(); 
printf("%d\n", !pid); 
if (pid != 0) +{ 
if (waitpid(-1, &status, 0) > 0) { 
if (WIFEXITED(status) != 0) 
printf("%d\n", WEXITSTATUS (status)); 
小 
. 
printf ("Bye\n'"); 
exit (2); 
小 


code/ecf/waitprobl.\ 


第 8 章 时 形 常 挫 制 流 I 521 





A. 这 个 程序 会 产生 多 少 输出 行 ? 
B. 这 些 输 出 行 的 一 种 可 能 的 顺序 是 什么 ? 


8. 4.4 ”让 进程 休眠 
sleep 函数 将 一 个 进程 挂 起 一 段 指 定 的 时 间 。 





#include <unistd.h> 


unsigned int sleep(unsigned int secs); 
返回 : 还 要 休 眼 的 秒 数 。 











如 果 请 求 的 时 间 量 已 经 到 了 ，sleep 返回 0， 否则 返回 还 剩 下 的 要 休眠 的 秒 数 。 后 一 
种 情况 是 可 能 的 ， 如 果 因 为 sleep 函数 被 一 个 信号 中 断 而 过 早 地 返回 。 我 们 将 在 8. 5 节 中 
详细 讨论 信和 号。 

我 们 会 发 现 另 一 个 很 有 用 的 函数 是 pause 函数 ， 该 函数 让 调用 函数 休眠 ， 直 到 该 进程 
收 到 一 个 信号。 








#include <unistd.h> 


int pause(void); 





ES 练习 题 8.5 编写 一 个 sleep 的 包装 函数 ， 叫 做 snooze， 带 有 下 面 的 接口 : 


unsigned int snooze(unsigned int secs); 


snooze 函数 和 sleep 函数 的 行为 完全 一 样 ， 除 了 它 会 打印 出 一 条 消息 来 描述 进程 实 
际 休眠 了 多 长 时 间 : 
Slept for 4 of 5 secs. 


8. 4.5 加 载 并 运行 程序 
execve 函数 在 当前 进程 的 上 下 文中 加 载 并 运行 一 个 新 程序 。 





#include <unistd.h> 


int execve(const char *filename, const char *argv[], 
const char *envp[]); 





如 果 成 功 ， 则 不 返回 ， 如 果 错 误 ， 则 返回 一 1。 





execve 图 数 加 载 并 运行 可 执行 目标 文件 filename， 且 带 参 数列 表 argv 和 环境 变量 
列表 envp。 只 有 当 出 现 错误 时 ， 例 如 找 不 到 filename，execve 才 会 返回 到 调用 程序 。 
所 以 ， 与 fork 一 次 调用 返回 两 次 不 同 ，execve 调用 一 次 并 从 不 返回 。 

参数 列表 是 用 图 8-20 中 的 数据 结构 表示 的 。argv 变量 指向 一 个 以 null 结尾 的 指针 数 
组 ， 其 中 每 个 指针 都 指向 一 个 参数 字符 串 。 按 照 惯 例 ，argv [10] 是 可 执行 目标 文件 的 名 
字 。 环 境 变量 的 列表 是 由 一 个 类 似 的 数据 结构 表示 的 ， 如 图 8-21 所 示 。envp 变量 指向 一 
个 以 null 结尾 的 指针 数组 ， 其 中 每 个 指针 指向 一 个 环境 变量 字符 串 ， 每 个 串 都 是 形 如 
“name=value” 的 名 字 - 值 对 。 
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argv[] 
| arev | ,| argv [0] | 一 一 一 ?Sn 





| ne [1] | = #1t" 


>: 了 
argv[argc — 1] | 
NULL | 一 > 


图 8-20 参数 列表 的 组 织 结构 

















"VuserVincluden 


envp[] 

= 

envp [0] 

envp [1] 





envp "PWD=/usr/droh" 











"PRINTER=iron" 





envp[n — 1] 





"USER=droh" 














图 8-21 环境 变量 列表 的 组 织 结构 


在 execve 加 载 了 filename 之 后 , 它 调 用 7.9 节 中 描述 的 启动 代码 。 启 动 代码 设置 
栈 ， 并 将 控制 传递 给 新 程序 的 主 函 数 ， 该 主 函数 有 如 下 形式 的 原型 


int main(int argc, char **argv, char **envp); 


或 者 等 价 的 


int main(int argc, char *argv[], char *envp[]); 


当 main 开始 执行 时 ， 用 户 栈 的 组 织 结构 如 图 8-22 所 示 。 让 我 们 从 栈 底 (高 地 址 ) 往 栈 顶 
(〈 低 地址) 依次 看 一 看 。 首 先是 参数 和 环境 字符 串 。 栈 往 上 紧 随 其 后 的 是 以 null 结尾 的 指针 
数组 ， 其 中 每 个 指针 都 指向 栈 中 的 一 个 环境 变量 字符 串 。 全 局 变量 environ 指向 这 些 指 
针 中 的 第 一 个 envp [0] 。 紧 随 环境 变量 数组 之 后 的 是 以 null 结尾 的 argv[ ] 数 组 ， 其 中 每 
个 元 素 都 指向 栈 中 的 一 个 参数 字符 串 。 在 栈 的 顶部 是 系统 启动 函数 1ibc_start main( 见 
7.9 节 ) 的 栈 由 。 


envp[n] == NULL 


SE environ 
| | -| (全 局 变量 ) 


envp[0] 














argv[largc-1] (在 寄存 器 $rdx 中 ) 


argv i i [0j 
(在 寄存 器 srsi 中 ) 
argc 
(在 寄存 器 $rdi 中 ) libc_start _main 的 栈 帧 


main 的 未 来 的 栈 帧 

















图 8-22 一 个 新 程序 开始 时 ， 用 户 栈 的 典型 组 织 结构 
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main 函数 有 3 个 参数 : 1) argc， 它 给 出 argv[ ] 数 组 中 非 空 指针 的 数量 ，2) argv， 
指向 argv[ ] 数 组 中 的 第 一 个 条 目 ，3)envp， 指 向 envp [] 数 组 中 的 第 一 个 条 目 。 
Linux 提供 了 几 个 函数 来 操作 环境 数组 : 





#include <stdlib.h> 


char *getenv(const char *name); 


返回 : 若 存在 则 为 指向 name 的 指针 ， 若 无 匹配 的 ， 则 为 NULL。 





getenv 函数 在 环境 数组 中 搜索 字符 串 “name=value”。 如 果 找 到 了 ， 它 就 返回 一 个 
指向 value 的 指针 ， 否 则 它 就 返回 NULL。 





#include <stdlib.h> 
int setenv(const char *name, const char *newvalue, int overwrite); 
返回 : 若 成 功 则 为 0， 若 错误 则 为 一 1 。 
void unsetenv(const char *name); 
返回 : 无 。 











如 果 环 境 数组 包含 一 个 形 如 “name=oldvalue” 的 字符 串 ， 那 么 unsetenv 会 删除 
它 ， 而 setenv 会 用 newvalue 代替 oldvalue， 但 是 只 有 在 overwirte 非 零 时 才 会 这 样 。 
如 果 name 不 存在 ， 那 么 setenv 就 把 “name=newvalue” 添 加 到 数组 中 。 


| 旁 注 | 程序 与 进程 

这 是 一 个 适当 的 地 方 ， 停 下 来 ， 确 认 一 下 你 理解 了 程序 和 进程 之 间 的 区 别 。 程 序 是 
一 堆 代码 和 数据 ; 程序 可 以 作为 目标 文件 存在 于 磁盘 上 ， 或 者 作为 段 存 在 于 地 址 空间 
中 。 进 程 是 执行 中 程序 的 一 个 具体 的 实例 ; 程序 总 是 运行 在 某 个 进程 的 上 下 文中 。 如 果 
你 想 要 理解 fork 和 execve 函数 ， 理 解 这 个 差异 是 很 重要 的 。fork 函数 在 新 的 子 进 程 
中 运行 相同 的 程序 ， 新 的 子 进 程 是 父 进 程 的 一 个 复制 品 。execve 函数 在 当前 进程 的 上 
下 文中 加 载 并 运行 一 个 新 的 程序 。 它 会 覆盖 当前 进程 的 地 址 空间 ， 但 并 没有 创建 一 个 新 
进程 。 新 的 程序 仍然 有 相同 的 PID， 并 且 继 承 了 调用 execve 函数 时 已 打开 的 所 有 文件 


B33 练习 题 8.6 编写 一 个 叫做 myecho 的 程序 ,打印 出 它 的 命令 行 
例如 : 


linux> ./myecho argl arg2 
Command-ine arguments : 
argv[ 0] : myecho 
argv[ 1] : argl 
argv[ 2] : arg2 
Environment variables: 
envp[ 0]: PWD=/usr0/droh/ics/code/ecf 
envp[ 1]: TERM=emacs 


六 


数 和 环境 变量 。 


envp [25] : USER=droh 
envp[26]: SHELL=/usr/local/bin/tcsh 
envp[27] : HOME=/usrO/droh 
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8.4.6 利用 fork 和 execve 运行 程序 


像 Unix shell 和 Web 服务 器 这 样 的 程序 大 量 使 用 了 fork 和 execve 函数 。shell 是 一 
个 交互 型 的 应 用 级 程序 ， 它 代表 用 户 运行 其 他 程序 。 最 早 的 shell 是 sh 程序 ， 后 面 出 现 了 
一 些 变 种 ， 比 如 csh、tcsh、ksh 和 bash。shell 执行 一 系列 的 读 / 求 值 (read/evaluate) 步 
又 ， 然 后 终止 。 读 步骤 读 取 来 自用 户 的 一 个 命令 行 。 求 值 步骤 解析 命令 行 ， 并 代表 用 户 运 
行程 序 。 

图 8-23 展示 了 一 个 简单 shell 的 main 例 程 。shell 打印 一 个 命令 行 提示 符 ， 等 待 用 户 
在 stdin 上 输入 命令 行 ， 然 后 对 这 个 命令 行 求 值 。 


code/ecf/shellex.c 
1 #include "csapp.h" 
2 #define MAXARGS 128 
3 
4 /* Function prototypes */ 
5 void eval(char *cmdline); 
6 int parseline(char *buf, char **argVv); 
7 int builtin_command(char **argv); 
8 
9 int main() 
10 { 
11 char cmdline [MAXLINE] ; /* Command line */ 
镑 
13 while (1) { 
14 /* Read */ 
15 printf ("> "); 
16 Fgets(cmdline, MAXLINE, stdin); 
授 if (feof (stdin)) 
18 exit (0); 
19 
20 /* Evaluate */ 
21 eval (cmdline); 
22 } 
23 
code/ecf/shellex.c 


图 8-23 一 个 简单 的 shell 程序 的 main 例 程 


图 8-24 展示 了 对 命令 行 求 值 的 代码 。 它 的 首要 任务 是 调用 parseline 函数 ( 见 图 8-25)， 
这 个 函数 解析 了 以 空格 分 隔 的 命令 行 参数 ， 并 构造 最 终 会 传递 给 execve 的 argv 向 量 。 
第 一 个 参数 被 假设 为 要 么 是 一 个 内 置 的 shell 命令 名 ， 马 上 就 会 解释 这 个 命令 ， 要 么 是 一 
个 可 执行 目标 文件 ， 会 在 一 个 新 的 子 进程 的 上 下 文中 加 载 并 运行 这 个 文件 。 

如 果 最 后 一 个 参数 是 一 个 “&” 字 符 ， 那 么 parseline 返回 1， 表 示 应 该 在 后 台 执 行 
该 程序 (shell 不 会 等 待 它 完 成 )。 否 则 ， 它 返回 0， 表 示 应 该 在 前 台 执 行 这 个 程序 (shell 会 
等 待 它 完成 )。 

在 解析 了 命令 行 之 后 ，eval 函数 调用 builtin command 函数 ， 该 函数 检查 第 一 个 命 
令 行 参数 是 否 是 一 个 内 置 的 shell 命令 。 如 果 是 ， 它 就 立即 解释 这 个 命令 ， 并 返回 值 1。 否 
则 返回 0。 简 单 的 shell 只 有 一 个 内 置 命令 一 一 quit 命令 ， 该 命令 会 终止 shell。 实 际 使 用 
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的 shell 有 大 量 的 命令 ， 比 如 pwd、jobs 和 fg。 

如 果 builtin command 返回 0， 那 么 shell 创建 一 个 子 进 程 ， 并 在 子 进程 中 执行 所 请 求 
的 程序 。 如 果 用 户 要 求 在 后 台 运 行 该 程序 ， 那 么 shell 返回 到 循环 的 顶部 ， 等 待 下 一 个 命令 
行 。 否 则 ，shell 使 用 waitpid 函数 等 待 作业 终止 。 当 作业 终止 时 ，shell 就 开始 下 一 轮 和 迭代 。 





code/ecf/shellex.c 
1 /* eval - Evaluate a command line */ 
2 void eval(char *cmdline) 
六 未 
4 char #argV[MAXARGS] ; /* Argument list execve() */ 
5 char buf [MAXLINE] ; /* Holds modified command line */ 
6 int bg; /* Should the job run in bg or fg? */ 
7 pid_t pid; /* Process id */ 
8 
9 strcpy (buf , cmdline); 
10 bg = parseline(buf, argv); 
11 if (argv[0] == NULL) 
说 return; /* Ignore empty lines */ 
13 
14 if (!builtin_command(argv)) { 
15 if ((pid = Fork()) == 0) { /* Child runs user job */ 
16 if (execve(argv[0], argv, environ) < 0) 二 
该 printf("%s: Command not found.\n", argv[0]); 
18 exit (0); 
19 } 
20 } 
21 
22 /* Parent waits for foreground job to terminate */ 
23 if (!bg) { 
24 int status; 
25 if (waitpid(pid, &status, 0) < 0) 
26 unix_error("waitfg: waitpid error'"); 
27 + 
28 else 
29 printf("%d %s", pid, cmdline); 
30 } 
31 return; 
32 } 
33 


34 /* If first arg is a builtin command, run it and return true */ 
35 int builtin_command(char **argv) 


36 { 

又 if (!strcmp(argv[0] ，"quit")) /* quit command */ 

38 exit(0); 

39 if (!strcmp(argv[0], "&")) /* Ignore singleton & */ 

40 return 1; 

41 return 0; /* Not a builtin command */ 
42 二 


code/ecf/shellex.c 


图 8-24 ”eval 对 shell 命令 行 求 值 
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code/ecf/shellex.c 


/* parseline - Parse the command line and build the argv array */ 


1 
之 int parseline(char *buf, char **argv) 

-et 

4 char *delim; /* Points to first space delimiter */ 
号 int argc; /* Number of args */ 

6 int bg; /* Background job? */ 

7 

8 buf[strlen(buf)-1] = ' '; /* Replace trailing ‘\n' with space */ 
9 While (*buf && (*buf == ' ')) /* Ignore leading spaces */ 
10 buf++; 

11 ， 

入 /* Build the argv list */ 

13 argc = 0; 

14 while ((delim = strchr(buf, ' '))) 荆 

15 argv[argc++] = buf; 

16 *delim = '\0'; 

17 buf = delim + 1; 

18 While (*buf && (*buf == ' ')) /* Ignore spaces */ 

19 buf++; 

20 } 

21 argv[argc] = NULL; 

22 

23 if (argc == 0) /* Ignore blank line */ 

24 return 1; 

25 

26 /* Should the job run in the background? */ 

2 if ((bg = (rargv[argc-l] == '&')) != 0) 

28 argv[--argc] = NULL; 

29 

30 return bg; 

31 } 


code/ecf/’shellex.c 
图 8-25 parseline 解析 shell 的 一 个 输入 行 


注意 ， 这 个 简单 的 shell 是 有 缺陷 的 ， 因 为 它 并 不 回收 它 的 后 台子 进程 。 修 改 这 个 缺 
陷 就 要 求 使 用 信号 ， 我 们 将 在 下 一 节 中 讲述 信号 。 


8 SS 信号 


到 目前 为 止 对 异常 控制 流 的 学 习 中 ， 我 们 已 经 看 到 了 硬件 和 软件 是 如 何 合作 以 提供 基 
本 的 低层 异常 机 制 的 。 我 们 也 看 到 了 操作 系统 如 何 利用 异常 来 支持 进程 上 下 文 切换 的 异常 
控制 流 形 式 。 在 本 节 中 ， 我 们 将 研究 一 种 更 高 层 的 软件 形式 的 异常 ， 称 为 Linux 信号 , 它 
允许 进程 和 内 核 中 断 其 他 进程 。 

一 个 信号 就 是 一 条 小 消息 ， 它 通知 进程 系统 中 发 生 了 一 个 某 种 类 型 的 事件 。 比 如 ， 图 8-26 
展示 了 Linux 系统 上 支持 的 30 种 不 同类 型 的 信和 号。 

每 种 信号 类 型 都 对 应 于 某 种 系统 事件 。 低 层 的 硬件 异常 是 由 内 核 异 常 处 理 程序 处 理 的 , 正 
常情 况 下 ， 对 用 户 进 程 而 言 是 不 可 见 的 。 信 号 提供 了 一 种 机 制 ， 通知 用 户 进程 发 生 了 这 些 异常 。 
比如 ， 如 果 一 个 进程 试图 除 以 0， 那么 内 核 就 发 送 给 它 一 个 SIGFPE 信号 (号 码 8)。 如 果 一 个 进 
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程 执行 一 条 非法 指令 ， 那 么 内 核 就 发 送 给 它 一 个 SIGILL 信号 (号 码 4)。 如 果 进 程 进 行 非法 内 存 
它 一 个 SGSEGYV 信号 (号 码 11)。 其 他 信和 号 对 应 于 内 核 或 者 其 他 用 户 进程 
中 较 高 层 的 软件 事件 。 比 如 ， 如 果 当 进程 在 前 台 运 行 时 ， 你 键入 Ctrl 十 C( 也 就 是 同时 按 下 Ctrl 
键 和 C 键 )， 那 么 内 核 就 会 发 送 一 个 SIGINT 信和 号 (号 码 2) 给 这 个 前 台 进程 组 中 的 每 个 进程 。 一 
个 进程 可 以 通过 向 另 一 个 进程 发 送 一 个 SIGKILL 信号 (号 码 9) 强 制 终止 它 。 当 一 个 子 进程 终止 


引用 ， 内 核 就 发 送 给 


或 者 停止 时 ， 内 核 会 发 送 一 个 SIGCHLD 信号 (号 码 17) 给 父 进程 。 





28 
29 
30 





注 : 四 多 年 前 ， 主 存 是 用 一 种 称 为 磁 芯 存储 器 (core memory) 的 技术 来 实现 的 。“ 转 储 内 存 ”dumping core) 是 一 


个 历史 术语 ， 意 思 是 把 代码 和 数据 内 存 段 的 映像 写 到 磁盘 上 。 








SIGHUP 
SIGINT 
SIGQUIT 
SIGILL 
SIGTRAP 
SIGABRT 
SIGBUS 
SIGFPE 
SIGKILL 
SIGUSR!1 
SIGSEGV 
SIGUSR2 
SIGPIPE 
SIGALRM 
SIGTERM 
SIGSTKFLT 
SIGCHLD 
SIGCONT 
SIGSTOP 
SIGTSTP 
SIGTTIN 
SIGTTOU 
SIGURG 
SIGXCPU 
SIGXFSZ 
SIGVTALRM 
SIGPROF 
SIGWINCH 
SIGIO 
SIGPWR 





终止 
终止 
终止 
终止 
终止 并 转 储 内 存 
终止 并 转 储 内 存 
终止 
终止 并 转 储 内 存 ” 
终止 @ 
终止 
终止 并 转 储 内 存 ” 


0 
国 


忽略 


停止 直到 下 一 个 SIGCONT 
停止 直到 下 一 个 SIGCONT 
停止 直到 下 一 个 SIGCONT 
停止 直到 下 一 个 SIGCONT 


忽略 
终止 
终止 
终止 
终止 
忽略 
终止 
终止 


图 8-26 


回 这 个 信号 既 不 能 被 捕获 ， 也 不 能 被 忽略 。 


(来 源 ， man 7 signal。 数 据 来 自 Linux Foundation。) 


8. 3. 1 


信号 术语 
传送 一 个 信号 到 目的 进程 是 由 两 个 不 同步 又 组 成 的 

。 发 送信 号 。 内 核 通 过 更 新 目的 进程 上 下 文中 的 菜 个 状态 ， 发 送 (递送 ) 一 个 信号 给 
的 进程 。 发 送信 号 可 以 有 如 下 两 种 原因 1) 内 核 检测 到 一 个 系统 事件 ， 比 如 除 零 错 
误 或 者 子 进程 终止 。2) 一 个 进程 调用 了 kill 函数 (在 下 一 节 中 讨论 ) ， 显 式 地 要 求 





相应 事件 
终端 线 挂 断 
来 自 键盘 的 中 斯 
来 自 键盘 的 退出 
非法 指令 
跟踪 陷阱 
来 自 abort 函数 的 终止 信号 
总 线 错 误 
浮 点 异常 
杀 死 程序 
用 户 定义 的 信号 1 
无 效 的 内 存 引 用 (上 段 故障 ) 
用 户 定义 的 信和 号 2 
向 一 个 没有 读 用 户 的 管道 做 写 操作 
来 自 alarm 函数 的 定时 器 信号 
软件 终止 信号 
协 处 理 器 上 的 栈 故 障 
一 个 子 进程 停止 或 者 终止 
继续 进程 如 果 该 进程 停止 
不 是 来 自 终 端的 停止 信号 
来 自 终端 的 停止 信号 
后 台 进 程 从 终端 读 
后 台 进 程 向 终端 写 
套 接 字 上 的 紧急 情况 
CPU 时 间 限 制 超出 
文件 大 小 限制 超出 
虚拟 定时 器 期 满 
剖析 定时 器 期 满 
窗口 大 小 变化 
在 某 个 描述 符 上 可 执行 IO 操作 
电源 故障 








Linux 信号 


内 核发 送 一 个 信号 给 目的 进程 。 一 个 进程 可 以 发 送信 号 给 它 自己 。 
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@ 接收 信号 。 当 目的 进程 被 内 核 强 迫 以 某 种 方式 对 信和 号 的 发 送 做 出 反应 时 ， 它 就 接收 了 
信和 号。 进程 可 以 忽略 这 个 信号 ， 终 止 或 者 通过 执行 一 个 称 为 信号 处 理 程序 (signal han- 
dler) 的 用 户 层 函 数 捕获 这 个 信和 号。 图 8-27 给 出 了 信号 处 理 程 序 捕获 信号 的 基本 思想 


(2 ) 控制 传递 到 
(1 ) 进程 接 了 信号 处 理 程序 


收 到 信号 be (3) 信和 号 处 


理 程 序 运行 





(4 ) 信号 处 理 程序 
返回 到 下 一 条 指令 


图 8-27 信号 处 理 。 接 收 到 信号 会 触发 控制 转移 到 信号 处 理 程 序 。 在 信号 处 理 程序 
完成 处 理 之 后 ， 它 将 控制 返回 给 被 中 断 的 程序 


一 个 发 出 而 没有 被 接收 的 信号 叫做 待 处 理 信 号 (pending signal) 。 在 任何 时 刻 ， 一 种 类 
型 至 多 只 会 有 一 个 待 处 理 信号 。 如 果 一 个 进程 有 一 个 类 型 为 & 的 待 处 理 信号 ， 那么 任何 接 
下 来 发 送 到 这 个 进程 的 类 型 为 & 的 信号 都 不 会 排队 等 待 ; 它们 只 是 被 简单 地 丢弃 。 一 个 进 
程 可 以 有 选择 性 地 阻塞 接收 某 种 信号 。 当 一 种 信和 号 被 阻塞 时 ， 它 仍 可 以 被 发 送 ， 但 是 产生 
的 待 处 理 信号 不 会 被 接收 ， 直 到 进程 取消 对 这 种 信号 的 阻塞 。 

一 个 待 处 理 信号 最 多 只 能 被 接收 一 次 。 内 核 为 每 个 进程 在 pending 位 向 量 中 维护 着 
待 处 理 信号 的 集合 ， 而 在 blocked 位 向 量 中 维护 着 被 阻塞 的 信号 集合 。 只 要 传送 了 一 个 
类 型 为 & 的 信号 ， 内 核 就 会 设置 pending 中 的 第 位， 而 只 要 接收 了 一 个 类 型 为 & 的 信 
号 ， 内 核 就 会 清除 pending 中 的 第 & 位 。 


:52 和 入 各 

Unix 系统 提供 了 大 量 向 进程 发 送信 号 的 机 制 。 所 有 这 些 机 制 都 是 基于 进程 组 (process 
group) 这 个 概念 的 。 

1. 进程 组 

每 个 进程 都 只 属于 一 个 进程 组 ， 进 程 组 是 由 一 个 正 整数 进程 组 ID 来 标识 的 。getpgrp 
函数 返回 当前 进程 的 进程 组 ID: 





#include <unistd.h> 


Pid_t getpgrp(void); 
返回 : 调用 进程 的 进程 组 ID。 








默认 地 ， 一 个 子 进 程 和 它 的 父 进程 同属 于 一 个 进程 组 。 一 个 进程 可 以 通过 使 用 set- 
pgid 函数 来 改变 自己 或 者 其 他 进程 的 进程 组 : 





#include <unistd.h> 


int setpgid(pid_t pid, pid_t pgid); 
| 返回 : 营 成 功 则 为 0， 车 错误 则 为 一 1。 








setpgid 函数 将 进程 pia 的 进程 组 改 为 pgid。 如 果 pid 是 0， 那么 就 使 用 当前 进程 





昌 ”也 称 为 信号 掩 码 (signal mask) 。 
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的 PID。 如 果 pgid 是 0， 那么 就 用 pia 指定 的 进程 的 PID 作为 进程 组 ID。 例 如 ， 如 果 进 
程 15213 是 调用 进程 ， 那 么 
setpgid(0, 0); 


会 创建 一 个 新 的 进程 组 ， 其 进程 组 ID 是 15213， 并 且 把 进程 15213 加 入 到 这 个 新 的 进程 
组 中 。 

2. 用 /bin/kil11l 程序 发 送信 和 号 

/bin/kill 程序 可 以 向 另外 的 进程 发 送 任意 的 信号 。 比 如 ， 命 令 

linux> /bin/kill -9 15213 


发 送信 号 9(SIGKILL) 给 进程 15213。 一 个 为 负 的 PID 会 导致 信号 被 发 送 到 进程 组 PID 中 
的 每 个 进程 。 比 如 ， 命 令 


linux> /bin/kill -9 -15213 


发 送 一 个 SIGKILL 信号 给 进程 组 15213 中 的 每 个 进程 。 注 意 ， 在 此 我 们 使 用 完整 路 径 / 
bin/kil1， 因 为 有 些 Unix shell 有 自己 内 置 的 kill 命令 。 

3. 从 键盘 发 送信 号 

Unix shell 使 用 作业 (job) 这 个 抽象 概念 来 表示 为 对 一 条 命令 行 求 值 而 创建 的 进程 。 在 
任何 时 刻 ， 至 多 只 有 一 个 前 台 作 业 和 0 个 或 多 个 后 台 作 业 。 比 如 ， 键 人 


linux> ls | sort 


会 创建 一 个 由 两 个 进程 组 成 的 前 台 作 业 ， 这 两 个 进程 是 通过 Unix 管道 连接 起 来 的 : 一 
进程 运行 1s 程序 ， 另 一 个 运行 sort 程序 。shell 为 每 个 作业 创建 一 个 独立 的 进程 组 。 进 程 
组 ID 通常 取 自 作业 中 父 进程 中 的 一 个 。 比 如 ， 图 8-28 展示 了 有 一 个 前 台 作 业 和 两 个 后 台 
作业 的 shell。 前 台 作 业 中 的 父 进 程 PID 为 20， 进 程 组 ID 也 为 20。 父 进程 创建 两 个 子 进 
程 ， 每 个 也 都 是 进程 组 20 的 成 员 。 


!' pid=40 
| pgid=40 





后 各 进程 组 2 后 人 进程 组 





pid=21 pid=22 | 
pgid=20 pgid=20 | 


“和 组 20 
图 8-28 ”前 台 和 后 台 进程 组 
在 键盘 上 输入 Ctrl 十 C 会 导致 内 核发 送 一 个 SIGINT 信号 到 前 台 进 程 组 中 的 每 个 进 
程 。 默 认 情 况 下 ， 结 果 是 终止 前 台 作 业 。 类 似 地 ， 输 入 Ctrl 十 Z 会 发 送 一 个 SIGTSTP 信 
号 到 前 台 进 程 组 中 的 每 个 进程 。 默 认 情 况 下 ， 结 果 是 停止 ( 挂 起 ) 前 台 作 业 。 





4. 用 kill 函数 发 送信 和 号 
进程 通过 调用 ki11 函数 发 送信 号 给 其 他 进程 (包括 它们 自己 )。 





#include <sys/types.h> 
#include <signal.h> 


int kill(pid_t pid, int sig); 





返回 : 车 成 功 则 为 0， 若 错误 则 为 一 1。 





如 果 pid 大 于 零 ， 那 么 ki11 函数 发 送信 号 号 码 sig 给 进程 pid。 如 果 pid 等 于 零 ， 那 么 
kil1l 发 送信 号 sig 给 调用 进程 所 在 进程 组 中 的 每 个 进程 ， 包 括 调用 进程 自己 。 如 果 pid 
小 于 零 ，ki11 发 送信 号 sig 给 进程 组 |pidl(piad 的 绝对 值 ) 中 的 每 个 进程 。 图 8-29 展示 
了 一 个 示例 ， 父 进程 用 ki1l1l 函数 发 送 SIGKILL 信号 给 它 的 子 进程 。 


code/ecf/kill.c 
1 #include "csapp.h" 
2 
3 int main() 
革 涡 
5 pid_t pid; 
6 
7 /* Child sleeps until SIGKILL signal received, then dies */ 
8 if ((pid = Fork()) == 0) { 
9 Pause(); /* Wait for a signal to arrive */ 
10 printf("control should never reach here!\n'); 
11 exit (0); 
12 , 
13 
14 /* Parent sends a SIGKILL signal to a child */ 
15 Kill(pid, SIGKILL); 
16 exit (0); 
三， 二 


code/ecf/kill.c 
- 图 8-29 使 用 kill 函数 发 送信 号 给 子 进程 


5. 用 alarm 项 数 发 送信 号 
进程 可 以 通过 调用 alarm 函数 向 它 自 己 发 送 SIGALRM 信和 号 。 





#include <unistd.h> 


unsigned int alarm(unsigned int secs); 
返回 : 前 一 次 闹钟 剩余 的 秒 数 ， 若 以 前 没有 设 定 闹 钟 ， 则 为 0。 





alarm 函数 安排 内 核 在 secs 秒 后 发 送 一 个 SIGALRM 信号 给 调用 进程 。 如 果 secs , 
是 零 ， 那 么 不 会 调度 安排 新 的 闪 钟 (alarm) 。 在 任何 情况 下 ， 对 alarm 的 调用 都 将 取消 任 
何 待 处 理 的 (pending) 闹 钟 ， 并 且 返 回 任何 待 处 理 的 闹钟 在 被 发 送 前 还 剩 下 的 秒 数 ( 如 果 这 
次 对 alarm 的 调用 没有 取消 它 的 话 ); 如 果 没 有 任何 待 处 理 的 闹钟 ， 就 返回 零 。 
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8. 5. 3 接收 信号 


当 内 核 把 进程 p 从 内 核 模式 切换 到 用 户 模式 时 (例如 ， 从 系统 调用 返回 或 是 完成 了 一 
次 上 下 文 切换 )， 它 会 检查 进程 p 的 未 被 阻塞 的 待 处 理 信号 的 集合 (pending pe 
如 果 这 个 集合 为 空 ( 通 常情 况 下 )， 那 么 内 核 将 控制 传递 到 p 的 逻辑 控制 流 中 的 下 一 条 指 
(Tiext)。 然 而 ， 如 果 和 集合 是 非 空 的 ， 那 么 内 核 选择 集合 中 的 菜 个 信号 (通常 是 最 小 的 Es 
并 且 强 制 p 接收 信号 &。 收 到 这 个 信号 会 触发 进程 采取 某 种 行为 。 一 旦 进程 完成 了 这 个 行 
为 ,那么 控制 就 传递 回 p 的 逻辑 控制 流 中 的 下 一 条 指令 (Tx )。 每 个 信号 类 型 都 有 一 个 预 
定义 的 默认 行为 ， 是 下 面 中 的 一 种 : 

e 进程 终止 。 

e 进程 终止 并 转 储 内 存 。 

e 进程 停止 ( 挂 起 ) 直 到 被 SIGCONT 信号 重启 

@ 进程 忽略 该 信和 号。 

8-26 展示 了 与 每 个 信号 类 型 相关 联 的 默认 行为 。 比 如 ， 收 到 SIGKILL 的 默认 行为 
就 是 终止 接收 进程 。 另 外 ， 接 收 到 SIGCHLD 的 默认 行为 就 是 忽略 这 个 信号 。 进 程 可 以 通 
过 使 用 signal 函数 修改 和 信和 号 相关 联 的 默认 行为 。 唯 一 的 例外 是 SIGSTOP 和 SIGKILL， 
它们 的 默认 行为 是 不 能 修改 的 。 


#include <signal.h> 
typedef void (*sighandler_t) (int); 


sighandler_t signal(int signum, sighandler_t handler); 
返回 : 若 成 功 则 为 指向 前 次 处 理 程序 的 指针 ， 若 出 错 则 为 SIG_ERR( 不 设置 errno)。 





signal 函数 可 以 通过 下 列 三 种 方法 之 一 来 改变 和 信号 signum 相关 联 的 行为 : 

e 如 果 handler 是 SIG_IGN， 那 么 忽略 类 型 为 signum 的 信号 

e 如 果 handler 是 SIG_DFL， 那 么 类 型 为 signum 的 信号 为 恢复 为 默认 行为 。 

e 否则 ，handler 就 是 用 户 定义 的 函数 的 地 址 ， 这 个 函数 被 称 为 信号 处 理 程序 ， 只 要 进 

程 接收 到 一 个 类 型 为 signum 的 信号 ， 就 会 调用 这 个 程序 。 通 过 把 处 理 程序 的 地 址 传 
递 到 signal 函数 从 而 改变 默认 行为 ， 这 叫做 设置 信号 处 理 程序 (installing the han- 
dler) 。 调 用 信和 号 处 理 程 序 被 称 为 捕获 信号 。 执 行 信号 处 理 程 序 被 称 为 处 理 信和 号 

当 一 个 进程 捕获 了 一 个 类 型 为 & 的 信和 号 时 ， 会 调用 为 信号 设置 的 处 理 程序 ， 一 个 整 
数 参 数 被 设置 为 。 这 个 参数 允许 同一 个 处 理 函 数 捕获 不 同类 型 的 信号 。 

当 处 理 程序 执行 它 的 return 语句 时 ， 控 制 (通常 ) 传 递 回 控制 流 中 进程 被 信号 接收 中 
断 位 置 处 的 指令 。 我 们 说 “通常 ”是 因为 在 某 些 系统 中 ， 被 中 断 的 系统 调用 会 立即 返回 一 
个 错误 。 

图 8-30 展示 了 一 个 程序 ， 它 捕获 用 户 在 键盘 上 输入 Ctrl 十 C 时 发 送 的 SIGINT 信和 号。 
SIGINT 的 默认 行为 是 立即 终止 该 进程 。 在 这 个 示例 中 ， 我 们 将 默认 行为 修改 为 捕获 信 
号 ， 输 出 一 条 消息 ， 然 后 终止 该 进程 。 

信号 处 理 程序 可 以 被 其 他 言 号 处 理 程 序 中 断 ， 如 图 8-31 所 示 。 在 这 个 例子 中 ， 主 程 
序 捕获 到 信号 *， 该 信号 会 中 断 主 程序 ， 将 控制 转移 到 处 理 程序 S。S 在 运行 时 ， 程 序 捕 
获 信号 :天 *， 该 信号 会 中 断 S， 控 制 转移 到 处 理 程序 工 。 当 了 返回 时 ，S 从 它 被 中 断 的 地 
方 继续 执行 。 最 后 ，S 返回 ， 控 制 传送 回 主 程序 ， 主 程序 从 它 被 中 断 的 地 方 继续 执行 





code/ecf/sigint.c 
1 #include "csapp.h" 
2 
3 void sigint_handler(int sig) /+ SIGINT handler */ 
4 攻 
5 printf ("Caught SIGINT!\n"); 
6 exit(0); 
” 
8 
9 int main() 
和 
11 /* Install the SIGINT handler */ 
12 if (signal(SIGINT, sigint_handler) == SIG_ERR) 
8 unix_error("signal error'"); 
14 
15 pause(); /* Wait for the receipt of a signal */ 
16 
迟 return 0; 
地 四 
code/ecf/sigint.c 
所 30 一 个 用 信号 处 理 程序 捕获 SIGINT 信号 的 程序 
主 程序 处 理 程序 5 处 理 程序 了 


(2 ) 控制 信号 传递 
给 处 理 程序 5S 





(1 ) 程序 捕获 信号 s 










(4 ) 控制 传递 给 处 理 程序 7 





(3 ) 程序 捕获 信号: 







(7 ) 主 程序 继续 执行 人 





(5 ) 处 理 程序 7 返回 到 
(6 ) 处 理 程序 S$ 返回 到 主 程序 处 理 程序 S$ 


多 8-31 信号 处 理 程序 可 以 被 其 他 信号 处 理 程序 中 断 


四 练习 题 8. 7 编写 一 个 叫做 snooze 的 程序 ， 它 有 一 个 命令 行 参 数 ， 用 这 个 参数 调用 
练习 题 8.5 中 的 snooze 函数 ， 然 后 终止 。 编 写 程 序 ， 使 得 用 户 可 以 通过 在 键盘 上 给 
入 Ctrl 十 C 中 断 snooze 函数 。 比 如 : 


linux> ./snooze 5 

CTRL+C User hits Crtl+C after 3 seconds 
Slept for 3 of 5 secs. 

linux> 


8.5.4 阻塞 和 解除 阻塞 信号 


Linux 提供 阻塞 信号 的 隐 式 和 显 式 的 机 制 : 

隐 式 阻塞 机 制 。 内 核 默认 阻塞 任何 当前 处 理 程序 正在 处 理 信号 类 型 的 待 处 理 的 信号 
例如 ， 图 8-31 假设 程序 捕获 了 信号 *， 当 前 正在 运行 处 理 程 序 S。 如 果 发 送 给 该 进程 
另 一 个 信号 s， 那 么 直到 处 理 程序 S 返回 ，; 会 变 成 待 处 理 而 没有 被 接收 。 

Se 应 用 程序 可 以 使 用 sigprocmask 函数 和 它 的 辅助 函数 ， 明 确 地 阻塞 
和 解除 阻塞 选 定 的 信和 号 
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#include <signal.h> 


int sigprocmask(int how, const sigset_t *set, sigset._t *oldset); 
int sigemptyset (sigset_t *set); 
int sigfillset(sigset_t *set); 
int sigaddset (sigset_t *set, int signum); 
int sigdelset(sigset_t *set, int signum); 
返回 : 如 果 成 功 则 为 0， 若 出 错 则 为 一 1。 

int sigismember(const sigset_t *set, int signum); 

返回 : 若 signum 是 set 的 成 员 则 为 ]， 如 果 不 是 则 为 0， 若 出 错 则 为 一 1。 











sigprocmask 函数 改变 当前 阻塞 的 信号 集合 (8. 5. 1 节 中 描述 的 blocked 位 向 量 )。 具 
体 的 行为 依赖 于 how 的 值 : 

SIG_BLOCK: 把 set 中 的 信号 添加 到 blocked 中 (blocked=blocked | set) 。 

SIG_UNBLOCK:， 从 blocked 中 删除 set 中 的 信号 (blocked=blocked &set) 。 

SIG_SETMASK : block=set。 

如 果 oldset 非 空 ， 那么 blocked 位 向 量 之 前 的 值 保存 在 oldset 中 。 

使 用 下 述 函 数 对 set 信号 集合 进行 操作 : sigemptyset 初始 化 set 为 空 集合 。sigfillset 
函数 把 每 个 信号 都 添加 到 set 中 。sigaddset 函数 把 signum 添 加 到 set，sigdelset 从 set 中 
删除 signum， 如 果 signum 是 set 的 成 员 ， 那 么 sigismember 返回 1， 否 则 返回 0。 

例如 ， 图 8-32 展示 了 如 何 用 sigprocmask 来 临时 阻塞 接收 SIGINT 信和 号 。 








1 sigset_t mask, prev_mask; 

2 

3 Sigemptyset (&mask); 

4 Sigaddset (&mask, SIGINT); 

a 

6 /* Block SIGINT and save previous blocked set */ 

7 Sigprocmask (SIG_BLOCK, &mask, &prev_mask); 

8 : N Code region that will not be interrupted by SIGINT 

9 /* Restore previous blocked set, unblocking SIGINT */ 


10 Sigprocmask (SIG_SETMASK, &prev_mask, NULL); 
| 


图 8-32 临时 阻塞 接收 一 个 信和 号 





8.5.5 编写 信号 处 理 程序 


言 号 处 理 是 Linux 系统 编程 最 棘手 的 一 个 问题 。 处 理 程序 有 几 个 属性 使 得 它们 很 难 推 
理 分 析 : 1) 处 理 程序 与 主 程序 并 发 运行 ， 共 享 同样 的 全 局 变量 ， 因 此 可 能 与 主 程序 和 其 他 
处 理 程序 互相 干扰 ; 2) 如 何以 及 何 时 接收 信号 的 规则 常常 有 违 人 的 直觉 ， 3) 不 同 的 系统 有 
不 同 的 信号 处 理 语义 。 

在 本 节 中 ， 我 们 将 讲述 这 些 问题 ， 介 绍 编写 安全 、 正 确 和 可 移植 的 信号 处 理 程序 的 一 
些 基本 规则 。 

1. 安全 的 信号 处 理 

信号 处 理 程序 很 麻烦 是 因为 它们 和 主 程序 以 及 其 他 信号 处 理 程 序 并 发 地 运行 ， 正 如 我 
们 在 图 8-31 中 看 到 的 那样 。 如 果 处 理 程序 和 主 程序 并 发 地 访问 同样 的 全 局 数据 结构 ， 那 


534 第 二 部 分 在 系统 上 运行 程序 





么 结果 可 能 就 不 可 预知 ， 而 且 经 常 是 致命 的 。 

我 们 会 在 第 12 章 详细 讲述 并 发 编程 。 这 里 我 们 的 目标 是 给 你 一 些 保守 的 编写 处 理 程 
序 的 原则 ， 使 得 这 些 处 理 程序 能 安全 地 并 发 运行 。 如 果 你 忽视 这 些 原则 ， 就 可 能 有 引入 细 
微 的 并 发 错误 的 风险 。 如 果 有 这 些 错 误 ， 程 序 可 能 在 绝 大 部 分 时 候 都 能 正确 工作 。 然 而 当 
它 出 错 的 时 候 ， 就 会 错 得 不 可 预测 和 不 可 重复 ， 这 样 是 很 难 调试 的 。 一 定 要 防 患 于 未 然 ! 

@ G0. 处 理 程序 要 尽 可 能 简单 。 避 免 麻 烦 的 最 好 方法 是 保持 处 理 程 序 尽 可 能 小 和 简 

单 。 例 如 ， 处 理 程序 可 能 只 是 简单 地 设置 全 局 标志 并 立即 返回 ; 所 有 与 接收 信号 相 
关 的 处 理 都 由 主 程序 执行 ， 它 周期 性 地 检查 (并 重 置 ) 这 个 标志 。 

@ G1. 在 处 理 程序 中 只 调用 异步 信号 安全 的 函数 。 所 谓 异 步 信 号 安全 的 函数 (或 简称 安全 的 函 
数 ) 能 够 被 信号 处 理 程序 安全 地 调用 ， 原 因 有 二 : 要 么 它 是 可 重 入 的 (例如 只 访问 局 部 变量 ， 
见 12.7.2 节 )， 要 么 它 不 能 被 信号 处 理 程序 中 断 。 图 8-33 列 出 了 Linux 保证 安全 的 系统 级 
函数 。 注 意 ， 许 多 常见 的 函数 (例如 printf、sprintf、malloc 和 exit) 都 不 在 此 列 。 











_Exit fexecve Pol1 sigqueue 
exit fork posix_trace_event sigset 
abort fstat pselect sigsuspend 
accept fstatat raise sleep 
access fsync read sockatmark 
aio_error ftruncate readlink socket 
aio_return futimens readlinkat socketpair 
aio_suspend getegid recyv stat 

alarm geteuid recvfrom symlink 
bind getgid recvmsg symlinkat 
cfgetispeed getgroups rename tcdrain 
cfgetospeed getpeername renameat tcflow 
cfsetispeed getpgrp rmdir tcflush 
cfsetospeed getpid select tcgetattr 
chdir getppid sem_post tcgetpgrp 
chmod getsockname send tcsendbreak 
chown getsockopt sendmsg tcsetattr 
clock_gettime getuid sendto tcsetpgrp 
close kill setgid time 
connect link setpgid timer_getoverrun 
creat linkat setsid timer_gettime 
dup listen setsockopt timer_settime 
dup2 lseek setuid times 

execl lstat shutdown umask 
execle mkdir sigaction uname 

execv mkdirat sigaddset unlink 
execve mkfifo sigdelset unlinkat 
faccessat mkfifoat sigemptyset utime 
fchmod mknod sigfillset utimensat 
fchmodat mknodat sigismember utimes 
fchown open signal wait 
fchownat openat sigpause waitpid 
fcntl pause sigpending write 
fdatasync pipe sigprocmask 


图 8-33 








异步 信号 安全 的 函数 (来 源 : man 7 signal 


。 数 据 来 自 Linux Foundation) 
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言 号 处 理 程序 中 产生 输出 唯一 安全 的 方法 是 使 用 write 函数 ( 见 10.1 节 )。 特 别 地 ， 
调用 printf 或 sprintf 是 不 安全 的 。 为 了 绕 开 这 个 不 幸 的 限制 ， 我 们 开发 一 些 安全 的 函 
数 ， 称 为 SIO( 安 全 的 W/O) 包 ， 可 以 用 来 在 信号 处 理 程序 中 打印 简单 的 消息 。 











#include "csapp.h" 
ssize_t sio_putl(long v); 
ssize_t sio_puts(char s[]); 
返回 : 如 果 成 功 则 为 传送 的 字 节 数 ， 如 果 出 错 ， 则 为 一 1。 
void sio_error(char s[]); 
返回 : 空 。 











sio putl 和 sio_puts 图 数 分 别 向 标准 输出 传送 一 个 long 类 型 数 和 一 个 字符 串 。 
sio_error 函数 打印 一 条 错误 消息 并 终止 。 

图 8-34 给 出 的 是 SIO 包 的 实现 ， 它 使 用 了 csapp.c 中 两 个 私有 的 可 重 人 函数 。 第 3 
行 的 sio_strlen 函数 返回 字符 串 s 的 长 度 。 第 10 行 的 sio_ltoa 函数 基于 来 自 L61j 的 
itoa 函数 ， 把 v 转换 成 它 的 基 b 字符 串 表 示 ， 保 存在 s 中 。 第 17 行 的 _exit 函数 是 exit 
的 一 个 异步 信号 安全 的 变种 。 


code/src/csapp.c 
1 ssize_t sio_puts(char s[]) /* Put string */ 
纪 
< return write(STDOUT_FILENO, s, sio_strlen(s)); 
第 二 
5 
6 ssize_t sioputl(long v) /* Put long */ 
“4 
8 char s[128]; 
9 
10 sio_ltoa(v, s, 10); /* Based on K&R itoa() */ 
11 return sio_puts(s); 
沪 
惕 
14 void sio_error(char s[]) /* Put error message and exit */ 
本 站 
16 sio_puts(s) ; 
17 _exit(1); 
18 了】 

code/src/csapp.c 

图 8-34 信号 处 理 程序 的 SIO( 安 全 WO) 包 
图 8-35 给 出 了 图 8-30 中 SIGINT 处 理 程序 的 一 个 安全 的 版 本 。 
oe code/ecf/sigintsafe.c 
1 #include "csapp.h" 
必 
3 void sigint_handler(int sig) /* Safe SIGINT handler */ 
六 
5 Sio_puts("Caught SIGINT!I\n"); /* Safe output */ 
6 _exit(0); /* Safe exit */ 
站 “ 贞 
code/ecf/sigintsafe.c 


图 8-35 ”图 8-30 的 SIGINT 处 理 程序 的 一 个 安全 版 本 
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@ G2. 保存 和 恢复 errno。 许 多 Linux 异步 信号 安全 的 函数 都 会 在 出 错 返 回 时 设置 
errno。 在 处 理 程序 中 调用 这 样 的 函数 可 能 会 干扰 主 程 序 中 其 他 依赖 于 errno 的 部 
分 。 解 决 方法 是 在 进入 处 理 程 序 时 把 errno 保存 在 一 个 局 部 变量 中 ， 在 处 理 程 序 返 
回 前 恢复 它 。 注 意 ， 只 有 在 处 理 程 序 要 返回 时 才 有 此 必要 。 如 果 处 理 程序 调用 
_exit 终 止 该 进程 ， 那 么 就 不 需要 这 样 做 了 。 
G3. 阻塞 所 有 的 信号 ， 保护 对 共享 全 局 数据 结构 的 访问 。 如 果 处 理 程序 和 主 程序 或 其 
他 处 理 程序 共享 一 个 全 局 数据 结构 ， 那 么 在 访问 ( 读 或 者 写 ) 该 数据 结构 时 ， 你 的 处 理 
程序 和 主 程序 应 该 暂时 阻塞 所 有 的 信和 号。 这 条 规则 的 原因 是 从 主 程序 访问 一 个 数据 结 
构 4 通常 需要 一 系列 的 指令 ， 如 果 指 令 序 列 被 访问 4d 的 处 理 程序 中 断 ， 那 么 处 理 程 序 
可 能 会 发 现 4 的 状态 不 一 致 ， 得 到 不 可 预知 的 结果 。 在 访问 4 时 暂时 阻塞 信号 保证 了 
处 理 程序 不 会 中 断 该 指令 序列 。 
G4. 用 volatile 声明 全 局 变量 。 考 虑 一 个 处 理 程序 和 一 个 main 函数 ， 它 们 共享 一 个 全 
局 变量 g。 处 理 程序 更 新 g，main 周期 性 地 读 g。 对 于 一 个 优化 编译 器 而 言 ，main 中 9 
的 值 看 上 去 从 来 没有 变化 过 ， 因 此 使 用 缓存 在 寄存 器 中 g 的 副本 来 满足 对 g 的 每 次 引用 
是 很 安全 的 。 如 果 这 样 ，main 函数 可 能 永远 都 无 法 看 到 处 理 程序 更 新 过 的 值 。 

可 以 用 volatile 类 型 限定 符 来 定义 一 个 变量 ， 告 诉 编译 器 不 要 缓存 这 个 变量 。 例 如 ， 


Volatile int g; 


volatile 限定 符 强迫 编译 器 每 次 在 代码 中 引用 g 时 ， 都 要 从 内 存 中 读 取 g 的 
值 。 一 般 来 说 ， 和 其 他 所 有 共享 数据 结构 一 样 ， 应 该 暂时 阻塞 信号 ， 保 护 每 次 对 全 
局 变量 的 访问 。 

@ G5. 用 sig atomic 七 声明 标志 。 在 常见 的 处 理 程 序 设计 中 ， 处 理 程 序 会 写 全 局 标 
志 来 记录 收 到 了 信和 号 。 主 程序 周期 性 地 读 这 个 标志 ， 响 应 信号 ， 再 清除 该 标志 。 对 
于 通过 这 种 方式 来 共享 的 标志 ，C 提供 一 种 整 型 数据 类 型 sig atomic 七 ， 对 它 的 
读 和 写 保 证 会 是 原子 的 (不 可 中 断 的 ) ， 因 为 可 以 用 一 条 指令 来 实现 它们 


Volatile Sig_atomic_t fiag; 


因为 它们 是 不 可 中 断 的 ， 所 以 可 以 安全 地 读 和 写 sig_atomic 七 变量 ， 而 不 需 
要 暂时 阻塞 信号 。 注 意 ， 这 里 对 原子 性 的 保证 只 适用 于 单个 的 读 和 写 ， 不 适用 于 像 
flag++ 或 flag=flag+10 这 样 的 更 新 ， 它 们 可 能 需要 多 条 指令 。 
要 记 住 我 们 这 里 讲述 的 规则 是 保守 的 ， 也 就 是 说 它们 不 总 是 严格 必需 的 。 例 如 ， 如 果 
你 知道 处 理 程序 绝对 不 会 修改 errno， 那 么 就 不 需要 保存 和 恢复 errno。 或 者 如 果 你 可 以 
证 明 printf 的 实例 都 不 会 被 处 理 程 序 中 断 ， 那 么 在 处 理 程序 中 调用 printf 就 是 安全 的 。 
对 共享 全 局 数据 结构 的 访问 也 是 同样 。 不 过 ， 一 般 来 说 这 种 断言 很 难 证 明 。 所 以 我 们 建议 
你 采用 保守 的 方法 ， 遵 循 这 些 规则 ， 使 得 处 理 程序 尽 可 能 简单 ， 调 用 安全 函数 ， 保 存 和 恢 
复 errno， 保 护 对 共享 数据 结构 的 访问 ， 并 使 用 volatile 和 sig atomic t。 
2. 正确 的 信号 处 理 
信号 的 一 个 与 直觉 不 符 的 方面 是 未 处 理 的 信号 是 不 排队 的 。 因 为 pending 位 向 量 中 
每 种 类 型 的 信号 只 对 应 有 一 位 ， 所 以 每 种 类 型 最 多 只 能 有 一 个 未 处 理 的 信号 。 因 此， 如 果 
两 个 类 型 的 信号 发 送 给 一 个 目的 进程 ， 而 因为 目的 进程 当前 正在 执行 信号 & 的 处 理 程 
序 ， 所 以 信号 被 阻塞 了 ， 那 么 第 二 个 信号 就 简单 地 被 丢弃 了 ; 它 不 会 排队 。 关 键 思想 是 
如 果 存 在 一 个 未 处 理 的 信号 就 表明 至 少 有 一 个 信号 到 达 了 。 
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要 了 解 这样 会 如 何 影响 正确 性 ,来 看 一 个 简单 的 应 用 ， 它 本 质 上 类 似 于 像 shell 和 
Web 服务 器 这 样 的 真实 程序 。 基 本 的 结构 是 父 进程 创建 一 些 子 进 程 ， 这 些 子 进程 各 自 独立 
和 ee 父 进程 必须 回收 子 进 程 以 避免 在 系统 中 留 下 僵 死 进程 。 但 是 我 
们 还 希望 父 能 够 在 子 进程 运行 时 自由 地 去 做 其 他 的 工作 。 ck 我 们 决定 用 
dt es 而 下 是 亚 式 地 党 符 了 进程 终止 。 想 一 下 ， 只 要 有 

一 个 子 进程 终止 或 者 停止 ， 内 核 就 会 发 送 一 个 SIGCHLD 信号 给 父 和 
图 8-36 展示 了 我 们 的 初次 尝试 。 父 进程 设置 了 一 个 SIGCHLD 处 理 程序 ， 然 后 创建 





code/ecf/signall.c 
1 /* WARNING: This code is buggy! */ 
2 
3 void handleri(int sig) 
半 撑 
汪 int olderrno = errno; 
6 
if ((waitpid(-1, NULL, 0)) < 0) 
8 sio_error("waitpid error"); 
9 Sio_puts("Handler reaped child\n'"); 
10 Sleep(1); 
11 errno = olderrno; 
位 ”再 
13 
14 int main() 
六 
16 inb Es 1 
17 char buf [MAXBUF]; 
8 
19 if (signal(SIGCHLD, handler1) == SIG_ERR) 
20 unix_error("signal error"); 
21 
22 /* Parent creates children */ 
23 for (i = 0; i < 3; i++) { 
24 if (Fork() == 0) { 
25 printf("Hello from child %d\n", (int)getpid()); 
26 exit (0); 
pa 上 
28 J 
29 
30 /* Parent waits for terminal input and then processes it */ 
31 if ((n = read(STDIN_FILENO, buf, sizeof (buf))) < 0) 
32 Unix_error("read" ) ; 
34 printf("Parent processing input\n'"); 
35 while (1) 
36 
37 
38 exit (0); 
39 小 





code/ectfsignall.c 
图 8-36 signall: 这 个 程序 是 有 缺陷 的 ， 因 为 它 假设 信号 是 排队 的 
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了 3 个 子 进 程 。 同 时 ， 父 进程 等 待 来 自 终端 的 一 个 输入 行 ， 随 后 处 理 它 。 这 个 处 理 被 模型 
化 为 一 个 无 限 循 环 。 当 每 个 子 进程 终止 时 ， 内 核 通 过 发 送 一 个 SIGCHLD 信和 号 通知 父 进 
程 。 父 进程 捕获 这 个 SIGCHLD 信号 ， 回 收 一 个 子 进程 ， 做 一 些 其 他 的 清理 工作 (模型 化 
为 sleep 语句 ) ， 然 后 返回 。 

图 8-36 中 的 signall 程序 看 起 来 相当 简单 。 然 而 ， 当 在 Linux 系统 上 运行 它 时 ， 我 
们 得 到 如 下 输出 : 

linux> ./signall 

Hello from child 14073 

Hello from child 14074 

Hello from child 14075 

Handler reaped child 

Handler reaped child 


CR 
Parent processing input 


从 输出 中 我 们 注意 到 ， 尽 管 发 送 了 3 个 SIGCHLD 信和 号 给 父 进程 ， 但 是 其 中 只 有 两 个 信号 被 
接收 了 ， 因 此 父 进 程 只 是 回收 了 两 个 子 进程 。 如 果 挂 起 父 进 程 ， 我们 看 到 ， 实 际 上 子 进程 
14075 没有 被 回收 ， 它 成 了 一 个 僵 死 进程 (在 ps 命令 的 输出 中 由 字符 串 “gdefunct” 表 明 )， 


CtrltZ 
Suspended 
linux> ps t 
PID TTY STAT TIME COMMAND 
14072 pts/3 T 0:02 ./signall 
14075 pts/3 Z 0:00 [signal1] <defunct> 


14076 pts/3 R+ 0:00 ps 七 


哪里 出 错 了 呢 ? 问题 就 在 于 我 们 的 代码 没有 解决 信号 不 会 排队 等 待 这 样 的 情况 。 所 发 
生 的 情况 是 : 父 进程 接收 并 捕获 了 第 一 个 信号 。 当 处 理 程序 还 在 处 理 第 一 个 信和 号 时 ， 第 二 
个 信和 号 就 传送 并 添加 到 了 待 处 理 信 和 号 集合 里 。 然 而 ， 因 为 SIGCHLD 信号 被 SIGCHLD 处 
理 程序 阻塞 了 ， 所 以 第 二 个 信和 号 就 不 会 被 接收 。 此 后 不 久 ， 就 在 处 理 程序 还 在 处 理 第 一 个 
信号 时 ， 第 三 个 信号 到 达 了 。 因 为 已 经 有 了 一 个 待 处 理 的 SIGCHLD， 第 三 个 SIGCHLD 
信号 会 被 丢弃 。 一 段 时 间 之 后 ， 处 理 程 序 返回 ， 内 核 注意 到 有 一 个 待 处 理 的 SIGCHLD 信 
号 ， 就 迫使 父 进程 接收 这 个 信号 。 父 进程 捕获 这 个 信号 ， 并 第 二 次 执行 处 理 程序 。 在 处 理 
程序 完成 对 第 二 个 信号 的 处 理 之 后 , 已 经 没有 待 处 理 的 SIGCHLD 信号 了 ， 而 且 也 绝 不 会 
再 有 ， 因 为 第 三 个 SIGCHLD 的 所 有 信息 都 已 经 丢失 了 。 由 此 得 到 的 重要 教训 是 ， 不 可 以 
用 信号 来 对 其 他 进程 中 发 生 的 事件 计数 。 

为 了 修正 这 个 问题 ， 我 们 必须 回想 一 下 ， 存 在 一 个 待 处理 的 信号 只 是 暗示 自 进程 最 后 
一 次 收 到 一 个 信号 以 来 ， 至 少 已 经 有 一 个 这 种 类 型 的 信号 被 发 送 了 。 所 以 我 们 必须 修改 
SIGCHLD 的 处 理 程序 ， 使 得 每 次 SIGCHLD 处 理 程序 被 调用 时 ， 回 收 尽 可 能 多 的 僵 死 子 
进程 。 图 8-37 展示 了 修改 后 的 SIGCHLD 处 理 程 序 。 

当 我 们 在 Linux 系统 上 运行 signal2 时 ， 它 现在 可 以 正确 地 回收 所 有 的 僵 死 子 进 
程 了 : 


linux> ./signal2 
Hello from child 15237 
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Hello from child 15238 
Hello from child 15239 
Handler reaped child 
Handler reaped child 
Handler reaped child 
CR 

Parent Processing input 





code/ecf/signal2.c 
1 void handler2(int sig) 
2 
3 int olderrno = errno; 
4 
5 while (waitpid(-1, NULL, 0) > 0) { 
6 Sio_puts("Handler reaped child\n'"); 
7 } 
8 if (errno != ECHILD) 
9 Sio_error("waitpid error"); 
10 Sleep(1) ; 
11 errno = olderrno; 
异 } 
code/ecf/signal2.c 


图 8-37 signal2: 图 8-36 的 一 个 改进 版 本 ， 它 能 够 正确 解决 信号 不 会 排队 等 待 的 情况 


这 练习 题 8.8 下 面 这 个 程序 的 输出 是 什么 ? 
code/ecf/signalprob0.c 


1 volatile long counter = 2; 

2 

3 void handleri(int sig) 

4 芋 

5 sigset_t mask, prev_mask; 
6 

和 Sigfillset (&mask); 

8 Sigprocmask (SIG_BLOCK, &mask, &prev_mask); /* Block sigs */ 
9 Sio_putl(--counter); 

10 Sigprocmask (SIG_SETMASK, &prev_mask, NULL); /* Restore sigs */ 
11 

12 exit (0):; 

13 } 

14 

15 int main() 

16 攻 

17 pid_t pid; 

18 sigset_t mask, prev_mask,; 
19 

20 printf("%ld", counter); 

21 fflush(stdout); 

22 

23 signal (SIGUSR1, handler1); 


24 if ((pid = Fork()) == 0) { 
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2 while(1) {}; 

26 } 

2 Kill(pid, SIGUSR1); 

28 Waitpid(-1, NULL, 0); 

29 

30 Sigfillset (&mask); 

31 Sigprocmask (SIG_BLOCK, &mask, &prev_mask); /* Block sigs */ 
32 printf("%ld", ++counter); 

3 Sigprocmask (SIG_SETMASK, &prev_mask, NULL); /* Restore sigs */ 
34 

35 exit (0); 

36 } 





code/ecf/signalprob0.c 


3, 可 移植 的 信号 处 理 

Unix 信号 处 理 的 另 一 个 缺陷 在 于 不 同 的 系统 有 不 同 的 信号 处 理 语义 。 例 如 

e@ signal 函数 的 语义 各 有 不 同 。 有 些 老 的 Unix 系统 在 信号 被 处 理 程序 捕获 之 后 就 
把 对 信号 & 的 反应 恢复 到 默认 值 。 在 这 些 系 统 上 ， 每 次 运行 之 后 ， 处 理 程序 必须 调 
用 signal 函数 ， 显 式 地 重新 设置 它 自己 。 

@ 系统 调用 可 以 被 中 断 。 像 read、write 和 accept 这 样 的 系统 调用 潜在 地 会 阻塞 进 
程 一 段 较 长 的 时 间 ， 称 为 慢 吉 系统 调用 。 在 某 些 较 早 版 本 的 Unix 系统 中 ， 当 处 理 
程序 捕获 到 一 个 信号 时 ， 被 中 断 的 慢 速 系统 调用 在 信号 处 理 程 序 返 回 时 不 再 继续 ， 
而 是 立即 返回 给 用 户 一 个 错误 条 件 ， 并 将 errno 设置 为 EINTR。 在 这 些 系统 上 ， 
程序 员 必 须 包 括 手动 重启 被 中 断 的 系统 调用 的 代码 。 

要 解决 这 些 问题 ，Posix 标准 定义 了 sigaction 函数 ， 它 允许 用 户 在 设置 信号 处 理 

时 ， 明 确 指定 他 们 想 要 的 信和 号 处 理 语义 。 





#include <signal.h> 


int sigaction(int signum, struct sigaction *act, 
struct sigaction *oldact); 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 





sigaction 因数 运用 并 不 广泛 ， 因 为 它 要 求 用 户 设置 一 个 复杂 结构 的 条 目 。 一 个 更 简 
洁 的 方式 ， 最 初 是 由 W. Richard Stevens 提出 的 L110]， 就 是 定义 一 个 包装 函数 ， 称 为 
Signal， 它 调用 sigaction。 图 8-38 给 出 了 signal 的 定义 ， 它 的 调用 方式 与 signal 函 
数 的 调用 方式 一 样 。 

Signal 包装 函数 设置 了 一 个 信和 号 处 理 程序 ， 其 信号 处 理 语义 如 下 : 

e 只 有 这 个 处 理 程序 当前 正在 处 理 的 那 种 类 型 的 信号 被 阻塞 

@ 言 号 实现 一 样 ， 信 和 号 不 会 排队 等 待 。 

e 只 要 可 能 ， 被 中 断 的 系统 调用 会 自动 重启 。 

e@ 言 号 处 理 程序 ， 它 就 会 一 直 保 持 ， 直 到 Signal 带 着 handler 参数 为 

SIG_IGN 或 者 SIG_DFL 被 调用 。 
我 们 在 所 有 的 代码 中 实现 Signal 包装 函数 。 


8. 5.6 同步 流 以 避免 讨厌 的 并 发 错误 
如 何 编写 读 写 相 同 存储 位 置 的 并 发 流程 序 的 问题 ， 困 扰 着 数 代 计算 机 科学 家 。 一 般 而 
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言 ， 流 可 能 交错 的 数量 与 指令 的 数量 呈 指 数 关 系 。 这 些 交错 中 的 一 些 会 产生 正确 的 结果 ， 
而 有 些 则 不 会 。 基 本 的 问题 是 以 某 种 方式 同步 并 发 流 ， 从 而 得 到 最 大 的 可 行 的 交错 的 集 
合 ， 每 个 可 行 的 交错 都 能 得 到 正确 的 结果 。 
code/src/csapp.c 
handler_t *Signal(int signum, handler_t *handler) 


1 

坟 “ 王 

3 struct sigaction action, old_action; 

4 

吕 action.sa_handler = handler; 

6 sigemptyset (&action.sa_mask); /* Block sigs of type being handled */ 
» action.sa_flags = SA_RESTART; /* Restart syscalls if possible */ 
8 

9 if (sigaction(signum, &action, &old_action) < 0) 

10 unix_error("Signal error'"); 

本 return (old_action.sa_handler) ; 

本 





code/src/csapp.c 
图 8-38 ”Signal; sigaction 的 一 个 包装 函数 ， 它 提供 在 Posix 兼容 系统 上 的 可 移植 的 信号 处 理 


并 发 编程 是 一 个 很 深 且 很 重要 的 问题 ， 我 们 将 在 第 12 章 中 更 详细 地 讨论 。 不 过 ， 在 
本 章 中 学 习 的 有 关 蜡 常 控制 流 的 知识 ， 可 以 让 你 感觉 一 下 与 并 发 相关 的 有 趣 的 智力 挑战 。 
例如 ， 考 虑 图 8-39 中 的 程序 ， 它 总 结 了 一 个 典型 的 Unix shell 的 结构 。 父 进程 在 一 个 全 局 
作业 列表 中 记录 着 它 的 当前 子 进程 ， 每 个 作业 一 个 条 目 。addjob 和 deletejob 函数 分 别 
向 这 个 作业 列表 添加 和 从 中 删除 作业 。 

当 父 进 程 创建 一 个 新 的 子 进程 后 ， 它 就 把 这 个 子 进程 添加 到 作业 列表 中 。 当 父 进程 在 
SIGCHLD 处 理 程 序 中 回收 一 个 终止 的 ( 僵 死 ) 子 进程 时 ， 它 就 从 作业 列表 中 删除 这 个 子 
进程 。 

乍 一 看 ， 这 段 代 码 是 对 的 。 不 幸 的 是 ， 可 能 发 生 下 面 这 样 的 事件 序列 ， 

1) 父 进程 执行 fork 函数 ， 内 核 调度 新 创建 的 子 进程 运行 ， 而 不 是 父 进程 。 

2) 在 父 进 程 能 够 再 次 运行 之 前 ， 子 进程 就 终止 ， 并 且 变 成 一 个 僵 死 进程 ， 使 得 内 核 
传递 一 个 SIGCHLD 信和 号 给 父 进程 。 

3) 后 来 ， 当 父 进程 再 次 变 成 可 运行 但 又 在 它 执 行 之 前 ， 内 核 注 意 到 有 未 处 理 的 
SIGCHLD 信号 ， 并 通过 在 父 进 程 中 运行 处 理 程序 接收 这 个 信号。 

4) 信号 处 理 程序 回收 终止 的 子 进程 ， 并 调用 deletejob， 这 个 函数 什么 也 不 做 ， 因 
为 父 进程 还 没有 把 该 子 进程 添加 到 列表 中 。 

5) 在 处 理 程序 运行 完毕 后 ， 内 核 运行 父 进 程 ， 父 进程 从 fork 返回 ， 通 过 调用 add- 
job 错误 地 把 (不 存在 的 ) 子 进程 添加 到 作业 列表 中 。 

因此 ， 对 于 父 进程 的 main 程序 和 信和 号 处 理 流 的 某 些 交错 ， 可 能 会 在 addjob 之 前 调 
用 deletejob。 这 导致 作业 列表 中 出 现 一 个 不 正确 的 条 目 ， 对 应 于 一 个 不 再 存在 而 且 永 远 
也 不 会 被 删除 的 作业 。 男 一 方面 ， 也 有 一 些 交 错 ， 事 件 按 照 正确 的 顺序 发 生 。 例 如 ， 如 果 
在 fork 调用 返回 时 ， 内 核 刚 好 调度 父 进 程 而 不 是 子 进程 运行 ， 那 么 父 进程 就 会 正确 地 把 
子 进 程 添 加 到 作业 列表 中 ， 然 后 子 进 程 终 止 ， 信 和 号 处 理 函 数 把 该 作业 从 列表 中 删除 。 

这 是 一 个 称 为 竞争 (race) 的 经 典 同步 错误 的 示例 。 在 这 个 情况 中 ，main 函数 中 调用 
addjob 和 处 理 程 序 中 调用 deletejob 之 间 存 在 竞争 。 如 果 adqj ob 赢得 进展 ， 那 么 结果 
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就 是 正确 的 。 如 果 它 没有 ， 那 么 结果 就 是 错误 的 。 这 样 的 错误 非常 难以 调试 ， 因 为 几乎 不 
可 能 测试 所 有 的 交错 。 你 可 能 运行 这 段 代 码 十 亿 次 ， 也 没有 一 次 错误 ， 但 是 下 一 次 测试 却 
导致 引发 竞争 的 交错 。 


code/ecf/procmaskl.c 


1  /* WARNING: This code is buggy! */ 
2 void handler(int sig) 
-i 
4 int olderrno = errno; 
5 sigset_t mask_all, prev_all; 
6 Pid_t pid; 
2 
8 Sigfillset (&mask_all); 
9 while ((pid = waitpid(-1, NULL, 0)) > 0) { /* Reap a zombie child */ 
10 Sigprocmask (SIG_BLOCK, &mask_all, &prev_all); 
初 deletejob(pid); /* Delete the child from the job list */ 
12 Sigprocmask (SIG_SETMASK, &prev_all, NULL); 
13 } 
14 if (errno != ECHILD) 
15 Sio_error("waitpid error'") ; 
16 errno = olderrno; 
证 
18 
19 int main(int argc, char **argv) 
20 并 
21 int pid; 
22 sigset_t mask_all, prev_all; 
23 
24 Sigfillset (&mask_all); 
25 Signal (SIGCHLD, handler); 
26 initjobs(); /* Initialize the job list */ 
27 
28 while (1) { 
29 if ((pid = Fork()) == 0) { /* Child process */ 
30 Execve("/bin/date", argv, NULL); 
| } 
32 Sigprocmask (SIG_BLOCK, &mask_all, &prev_all); /* Parent process */ 
33 addjob(pid); /* Add the child to the job list */ 
34 Sigprocmask (SIG_SETMASK, &prev_all, NULL); 
35 } 
36 exit (0); 
37 } 
code/ecf/procmaskl.c 
图 8-39 一 个 具有 细微 同步 错误 的 shell 程序 。 如 果子 进程 在 父 能 够 开始 运行 前 就 结束 了 ， 那 么 





adqjob 和 deletejob 会 以 错误 的 方式 被 调用 


图 8-40 展示 了 消除 图 8-39 中 竞争 的 一 种 方法 。 通 过 在 调用 fork 之 前 ， 阻塞 
SIGCHLD 信和 号， 然后 在 调用 addjob 之 后 取消 阻塞 这 些 信 和 号， 我 们 保证 了 在 子 进程 被 添 
加 到 作业 列表 中 之 后 回收 该 子 进程 。 注 意 ， 子 进程 继承 了 它们 父 进程 的 被 阻塞 集合 ， 所 以 
me GELD 全 已， 
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code/ecf/procmask2.c 
1 void handler(int sig) 
> 
3 int olderrno = errno; 
4 sigset_t mask_all, prev_all; 
六 pid_t pid; 
6 
Sigfillset (&mask_all); 
8 while ((pid = waitpid(-1, NULL, 0)) > 0) { /* Reap a zombie child */ 
9 Sigprocmask (SIG_BLOCK, &mask_all, &prev_all); 
10 deletejob(pid); /* Delete the child from the job list */ 
Ti Sigprocmask (SIG_SETMASK, &prev_all, NULL); 
禄 } 
13 if (errno != ECHILD) 
你 Sio_error("waitpid error"); 
全 errno = olderrno; 
16 } 
17 
18 int main(int argc, char **argv) 
19 { 
20 int pid; 
ZN| sigset_t mask_all, mask_one, prev_one; 
2 
23 Sigfillset (&mask_all); 
24 Sigemptyset (&mask_one); 
25 Sigaddset (&mask_one, SIGCHLD); 
26 Signal (SIGCHLD, handler); 
27 initjobs(); /* Initialize the job list */ 
28 
29 while (1) { 
Ei Sigprocmask (SIG_BLOCK, &mask_one, &prev_one); /* Block SIGCHLD */ 
31 if ((pid = Fork()) == 0) { /* Child process */ 
32 Sigprocmask (SIG_SETMASK, &prev_one, NULL); /* Unblock SIGCHLD */ 
33 Execve("/bin/date", argv, NULL); 
34 } 
ERS Sigprocmask (SIG_BLOCK, &mask_all, NULL); /* Parent process */ 
36 addjob(pid); /* Add the child to the job list */ 
Ey Sigprocmask (SIG_SETMASK, &prev_one, NULL); /* Unblock SIGCHLD */ 
38 } 
39 exit (0); 
40 } 


code/ecf/procmask2.c 
图 8-40 用 sigprocmask 来 同步 进程 。 在 这 个 例子 中 ， 父 进程 保证 在 相应 的 deletejob 之 前 执行 addjob 














8.5. 7 ” 显 式 地 等 待 信号 


有 时 候 主 程序 需要 显 式 地 等 待 某 个 信号 处 理 程序 运行 。 例 如 ， 当 Linux shell 创建 一 个 前 
台 作 业 时 ， 在 接收 下 一 条 用 户 命令 之 前 ， 它 必须 等 待 作业 终止 ,被 SIGCHLD 处 理 程序 回收 。 
图 8-41 给 出 了 一 个 基本 的 思路 。 父 进程 设置 SIGINT 和 SIGCHLD 的 处 理 程序 ， 然 后 
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进入 一 个 无 限 循环 。 它 阻塞 SIGCHLD 信号 ， 避 免 8. 5. 6 节 中 讨论 过 的 父 进 程 和 子 进程 之 
间 的 竞争 。 创 建 了 子 进程 之 后 ， 把 pid 重 置 为 0， 取 消 阻塞 SIGCHLD， 然 后 以 循环 的 方 
式 等 待 pid 变 为 非 零 。 子 进程 终止 后 ， 处 理 程 序 回收 它 ， 把 它 非 零 的 PID 赋值 给 全 局 pid 
变量 。 这 会 终止 循环 ， 父 进程 继续 其 他 的 工作 ， 然 后 开始 下 一 次 迭代 。 
code/ecf/waitforsignal.c 


#include "csapp.h" 
volatile sig_atomic_t pid; 


void sigchld_handler(int s) 


1 

沁 

3 

4 

5 

6 苇 

7 int olderrno = errno; 

8 pid = waitpid(-1, NULL, 0); 

9 errno = olderrno; 

10 } 

11 

12 void sigint_handler(int s) 

13 

14 } 

16 int main(int argc, char **argv) 

17 { 

18 sigset_t mask, prev; 

19 

20 Signal (SIGCHLD, sigchld_handler); 
21 Signal (SIGINT, sigint_handler); 
22 Sigemptyset (&mask); 

23 Sigaddset (&mask, SIGCHLD); 

24 

25 while (1) { 

26 Sigprocmask (SIG_BLOCK, &mask, &prev); /* Block SIGCHLD */ 
27 if (Fork() == 0) /* Child */ 
28 exit(0); 

29 

30 /* Parent */ 

31 pid = 0; 

32 Sigprocmask (SIG_SETMASK, &prev, NULL); /* Unblock SIGCHLD */ 
33 

34 /* Wait for SIGCHLD to be received (wasteful) */ 
35 while (!pid) 

36 - 

37 

38 /* Do some work after receiving SIGCHLD */ 
39 printf(", ")s 

40 于 

41 exit(0); 

42 } 


code/ecf/waitforsignal.c 


图 8-41 用 循环 来 等 待 信号 。 这 段 代码 正确 ， 但 循环 是 一 种 浪费 
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当 这 段 代码 正确 执行 的 时 候 ， 循环 在 浪费 处 理 器 资源 。 我 们 可 能 会 想 要 修补 这 个 问 
在 循环 体内 插入 pause: 
while (!pid) /* Race! */ 

pause() ; 
注意 ， 我 们 仍然 需要 一 个 循环 ， 因 为 收 到 一 个 或 多 个 SIGINT 信号 ，pause 会 被 中 
断 。 不 过 ， 这 段 代 码 有 很 严重 的 竞争 条 件 : 如 果 在 while 测试 后 和 pause 之 前 收 到 
SIGCHLD 信号 ，pause 会 永远 睡眠 。 

另 一 个 选择 是 用 sleep 替换 pause: 

while (1pid) /* Too slow! */ 

sleep(1); 

当 这 段 代码 正确 执行 时 ， 它 太 慢 了 。 如 果 在 while 之 后 pause 之 前 收 到 信号 ， 程序 
必须 等 相当 长 的 一 段 时 间 才 会 再 次 检查 循环 的 终止 条 件 。 使 用 像 nanosleep 这 样 更 高 精 
度 的 休眠 函数 也 是 不 可 接受 的 ， 因 为 没有 很 好 的 方法 来 确定 休眠 的 间隔 。 间 隔 太 小 ， 循 环 
会 太 浪费 。 间 隔 太 大 ， 程 序 又 会 太 慢 。 

合适 的 解决 方法 是 使 用 sigsuspend。 


阅 





#include <signal.h> 


int sigsuspend(const sigset_t *mask); 
返回 ; = 








sigsuspend 图 数 暂 时 用 mask 替换 当前 的 阻塞 集合 ， 然 后 挂 起 该 进程 ， 直 到 收 到 一 
个 信号 ， 其 行为 要 么 是 运行 一 个 处 理 程序 ， 要 么 是 终止 该 进程 。 如 果 它 的 行为 是 终止 ， 那 
么 该 进程 不 从 sigsuspend 返回 就 直接 终止 。 如 果 它 的 行为 是 运行 一 个 处 理 程序 ， 那么 
sigsuspend 从 处 理 程序 返回 ,恢复 调用 sigsuspend 时 原 有 的 阻塞 集合 。 

sigsuspend 函数 等 价 于 下 述 代 码 的 原子 的 (不 可 中 断 的 ) 版 本 : 

1 sigprocmask (SIG_SETMASK, &mask, &prev); 


到 pause() ; 
3 sigprocmask (SIG_SETMASK, &prev, NULL); 


原子 属性 保证 对 sigprocmask( 第 1 行 ) 和 pause( 第 2 行 ) 的 调用 总 是 一 起 发 生 的 ， 不 会 被 
中 断 。 这 样 就 消除 了 港 在 的 竞争 ， 即 在 调用 sigprocmask 之 后 但 在 调用 pause 之 前 收 到 
了 一 个 信和 号。 

图 8-42 展示 了 如 何 使 用 sigsuspend 来 替代 图 8-41 中 的 循环 。 在 每 次 调用 sigsus- 
pend 之 前 ， 都 要 阻塞 SIGCHLD。sigsuspend 会 暂时 取消 阻塞 SIGCHLD， 然 后 休眠 ， 
直到 父 进程 捕获 信号 。 在 返回 之 前 ， 它 会 恢复 原始 的 阻塞 集合 ， 又 再 次 阻塞 SIGCHILD。 
如 果 父 进程 捕获 一 个 SIGINT 信号 ， 那 么 循环 测试 成 功 ， 下 一 次 迭代 又 再 次 调用 sigsus- 
pend。 如 果 父 进程 捕获 一 个 SIGCHLD， 那么 循环 测试 失败 , 会 退出 循环 。 此 时， 
SIGCHLD 是 被 阻塞 的 ， 所 以 我 们 可 以 可 选 地 取消 阻塞 SIGCHLD。 在 真实 的 有 后 台 作 业 
需要 回收 的 shell 中 这 样 做 可 能 会 有 用 处 。 

sigsuspend 版 本 比 起 原来 的 循环 版 本 不 那么 浪费 ， 避 免 了 引入 pause 带 来 的 竞争 ， 
又 比 sleep 更 有 效率 。 
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code/ecf/sigsuspend.c 
1 #include "csapp.h" 
2 
3 volatile sig_atomic_t pid; 
4 
5 void sigchld_handler(int s) 
6 + 
7 int olderrno = errno; 
8 pid = Waitpid(-1, NULL, 0); 
9 errno = olderrno; 
10 亏 
| 
12 void sigint_handler(int s) 
1 
14 3} 
13 
16 int main(int argc, char **argv) 
18 sigset_t mask, prev; 
19 
20 Signal (SIGCHLD, sigchld_handler); 
21 Signal (SIGINT, sigint_handler); 
22 Sigemptyset (&mask); 
2 Sigaddset (&mask, SIGCHLD); 
24 
pA While (1) { 
26 Sigprocmask (SIG_BLOCK, &mask, &prev); /* Block SIGCHLD */ 
27 if (Fork() == 0) /* Child */ 
28 exit (0); 
29 
30 /* Wait for SIGCHLD to be received */ 
31 pid = 0; 
32 while (!pid) 
33 sigsuspend (&prev); 
34 
35 /* Optionally unblock SIGCHLD */ 
36 Sigprocmask (SIG_SETMASK, &prev, NULL); 
37 
38 /* Do some work after receiving SIGCHLD */ 
39 BruinteC .Ts 
40 } 
41 exit (0); 
42 
code/ecf/sigsuspend.c 


图 8-42 用 sigsuspend 来 等待 信号 


8.6 非 本 地 跳 转 


C 语言 提供 了 一 种 用 户 级 异常 控制 流 形式 ， 称 为 非 本 地 跳 转 (nonlocal jump)， 它 将 控 
制 直接 从 一 个 函数 转移 到 另 一 个 当前 正在 执行 的 函数 ， 而 不 需要 经 过 正常 的 调用 -返回 序 





列 。 非 本 地 跳 转 是 通过 setjmp 和 Longjmp 函数 来 提供 的 。 





#include <setjmp.h> 
int setjmp(jmp_buf env); 
int sigsetjmp(sigjmp_buf env, int savesigs); 
返回 : setjmp 返 回 0，longjmp 返回 非 零 。 











setjmp 函数 在 env 缓冲 区 中 保存 当前 调用 环境 ， 以 供 后 面 的 longjmp 使 用 ， 并 返回 
0。 调 用 环境 包括 程序 计数 器 、 栈 指针 和 通用 目的 寄存 器 。 出 于 某 种 超出 本 书 描述 范围 的 
原因 ，setjmp 返回 的 值 不 能 被 赋值 给 变量 : 


rc = setjmp(env); /* Wrong! */ 


不 过 它 可 以 安全 地 用 在 switch 或 条 件 语句 的 测试 中 [62]。 





#include <setjmp.h> 


void longjmp(jmp_buf env, int retval); 
void siglongjmp(sigjmp_buf env, int retval); 
从 不 返回 。 








longjmp 函数 从 env 缓冲 区 中 恢复 调用 环境 ， 然 后 触发 一 个 从 最 近 一 次 初始 化 env 
的 setjmp 调用 的 返回 。 然 后 setjmp 返回 ， 并 带 有 非 零 的 返回 值 retval。 

第 一 眼看 过 去 ，setjmp 和 longjmp 之 间 的 相互 关系 令 人 迷惑 。setjmp 函数 只 被 调 
用 一 次 ， 但 返回 多 次 : 一 次 是 当 第 一 次 调用 setjmp， 而 调用 环境 保存 在 缓冲 区 env 中 时 ， 
一 次 是 为 每 个 相应 的 longjmp 调用 。 男 一 方面 ，longjmp 函数 被 调用 一 次 ， 但 从 不 返回 。 

非 本 地 跳 转 的 一 个 重要 应 用 就 是 允许 从 一 个 深层 符 套 的 函数 调用 中 立即 返回 ， 通 常 是 
由 检测 到 某 个 错误 情况 引起 的 。 如 果 在 一 个 深层 嵌 套 的 函数 调用 中 发 现 了 一 个 错误 情况 ， 
我 们 可 以 使 用 非 本 地 跳 转 直接 返回 到 一 个 普通 的 本 地 化 的 错误 处 理 程序 ， 而 不 是 费力 地 解 
开 调 用 栈 。 

图 8-43 展示 了 一 个 示例 ， 说 明 这 可 能 是 如 何 工作 的 。main 函数 首先 调用 setjmp 以 
保存 当前 的 调用 环境 ， 然 后 调用 函数 foo，foo 依次 调用 函数 bar。 如 果 foo 或 者 bar 遇 
到 一 个 错误 ， 它 们 立即 通过 一 次 longjmp 调用 从 setjmp 返回 。setjmp 的 非 零 返 回 值 指 
明了 错误 类 型 ， 随 后 可 以 被 解码 ， 且 在 代码 中 的 某 个 位 置 进行 处 理 。 

Ce empe 
#include "csapp.h" 


jmp_buf buf; 


int errorl = 0; 


int error2 ls 


void foo(void), bar(void); 


MD Nm 人 whNP 一 





图 8-43 ” 非 本 地 跳 转 的 示例 。 本 示例 表明 了 使 用 非 本 地 跳 转 来 从 深层 符 套 的 
函数 调用 中 的 错误 情况 恢复 ， 而 不 需要 解 开 整个 栈 的 基本 框架 
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10 int main() 


11 { 

12 switch(setjmp(buf)) { 

13 case 0: 

14 foo() ; 

15 break; 

16 case 1: 

公 printf("Detected an errorl condition in foo\n"); 
18 break ; 

19 case 2: 

20 printf("Detected an error2 condition in fooNn'") ; 
21 break ; 

型 default : 

23 printf("Unknown error condition in fooNn'") ; 

24 } 

25 exit (0); 

26 } 


28  /* Deeply nested function foo */ 
29 void foo(void) 


纺 萎 

31 if (error1) 

32 longjmp(buf, 1); 
33 bar() ; 

34 } 


36 void bar(void) 


驶 ”所 

38 if (error2) 

39 longjmp (buf , 2); 
40 


code/ecf/setimp.c 
图 8-43 ( 续 ) 


longjmp 允许 它 跳 过 所 有 中 间 调 用 的 特性 可 能 产生 意外 的 后 果 。 例 如 ， 如 果 中 间 函 数 
调用 中 分 配 了 某 些 数据 结构 ， 本 来 预期 在 函数 结尾 处 释放 它们 ， 那 么 这 些 释 放 代 码 会 被 跳 
过 ， 因 而 会 产生 内 存 泄漏 。 

非 本 地 跳 转 的 另 一 个 重要 应 用 是 使 一 个 信号 处 理 程序 分 支 到 一 个 特殊 的 代码 位 置 ， 而 不 
是 返回 到 被 信号 到 达 中 断 了 的 指令 的 位 置 。 图 8-44 展示 了 一 个 简单 的 程序 ， 说 明了 这 种 基本 
技术 。 当 用 户 在 键盘 上 键入 Ctrl 十 C 时 ， 这 个 程序 用 信号 和 非 本 地 跳 转 来 实现 软 重 启 。sig- 
setjmp 和 siglongjmp 函数 是 setjmp 和 longjmp 的 可 以 被 信号 处 理 程 序 使 用 的 版 本 。 

在 程序 第 一 次 启动 时 ， 对 sigsetjmp 函数 的 初始 调用 保存 调用 环境 和 信和 号 的 上 下 文 
(包括 待 处 理 的 和 被 阻塞 的 信号 向 量 ) 。 随 后 ， 主 函数 进入 一 个 无 限 处 理 循环 。 当 用 户 键入 
Ctrl 十 C 时 ， 内 核发 送 一 个 SIGINT 信号 给 这 个 进程 ， 该 进程 捕获 这 个 信号 。 不 是 从 信号 
处 理 程 序 返 回 ， 如 果 是 这 样 那么 信号 处 理 程序 会 将 控制 返回 给 被 中 断 的 处 理 循环 ， 反 之 ， 
处 理 程序 完成 一 个 非 本 地 跳 转 ， 回 到 main 函数 的 开始 处 。 当 我 们 在 系统 上 运行 这 个 程序 
时 ， 得 到 以 下 输出 : 





linux> ./restart 
starting 
processing... 
processing... 
Ctri+C 
restarting 
processing... 
Ctri+C 
restarting 
processing... 


关于 这 个 程序 有 两 件 很 有 趣 的 事情 。 首 先 ， 为 了 避免 竞争 ， 必 须 在 调用 了 sigsetjmp 之 
后 再 设置 处 理 程序 。 否 则 ， 就 会 冒 在 初始 调用 sigsetjmp 为 siglongjmp 设置 调用 环境 之 前 
运行 处 理 程序 的 风险 。 其 次 ， 你 可 能 已 经 注意 到 了 ，sigsetjmp 和 siglongjmp 函数 不 在 图 
8-33 中 异步 信号 安全 的 函数 之 列 。 原 因 是 一 般 来 说 siglongjmp 可 以 跳 到 任意 代码 ， 所 以 我 
们 必须 小 心 ， 只 在 siglongjmp 可 达 的 代码 中 调用 安全 的 函数 。 在 本 例 中 ,我们 调用 安全 的 
sio_puts 和 sleep 函数 。 不 安全 的 exit 函数 是 不 可 达 的 。 


code/ecf/restart.c 


1 #include "csapp.h" 

2 

3 sigjmp_buf buf; 

4 

5 void handler(int sig) 

看 术 

7 siglongjmp (buf , 1); 

.i 

9 

10 int main() 

jy 

12 if (!sigsetjmp(buf, 1)) { 

13 Signal (SIGINT, handler); 
14 Sio_puts("starting\n"); 
15 上 

16 else 

Ti Sio_puts("restarting\n'"); 
18 

19 while(1) { 

20 Sleep(1) ; 

21 Sio_puts("processing...\n'"); 
22 3 

23 exit(0); /* Control never reaches here */ 
24 3} 








code/ecf/restart.c 


图 8-44” 当 用 户 键入 Ctrl 十 C 时 ,使 用 非 本 地 跳 转 来 重启 动 它 自身 的 程序 


| 旁 注 | C++ 和 Java 中 的 软件 异常 

C++ 和 Java 提供 的 蜡 常 机 制 是 较 高 层次 的 ， 是 C 语言 的 setjmp 和 longjmp 函数 
的 更 加 结构 化 的 版 本 。 你 可 以 把 try 语句 中 的 catch 子 句 看 做 类 似 于 setjmp 函数 。 相 
似 地 ，throw 语句 就 类 似 于 longjmp 函数 。 








8.7 操作 进程 的 工具 


Linux 系统 提供 了 大 量 的 监控 和 操作 进程 的 有 用 工具 。 

STRACE: 打印 一 个 正在 运行 的 程序 和 它 的 子 进程 调用 的 每 个 系统 调用 的 轨迹 。 对 于 
好 奇 的 学 生 而 言 ， 这 是 一 个 令 人 着 迷 的 工具 。 用 -static 编译 你 的 程序 ， 能 得 到 一 个 更 干 
净 的 、 不 带 有 大 量 与 共享 库 相 关 的 输出 的 轨迹 。 

PS: 列 出 当前 系统 中 的 进程 (包括 僵 死 进程 ) 。 

TOP: 打印 出 关于 当前 进程 资源 使 用 的 信息 。 

PMAP: 显示 进程 的 内 存 映射 。 

/proc: 一 个 虚拟 文件 系统 ， 以 ASCII 文 本 格式 输出 大 量 内 核 数据 结构 的 内 容 ， 用 户 
程序 可 以 读 取 这 些 内 容 。 比 如 ,输入 “cat/proc/1loadavg”， 可 以 看 到 你 的 Linux 系统 上 
当前 的 平均 负载 。 


8.8 术 北 

异常 控制 流 (ECF) 发 生 在 计算 机 系统 的 各 个 层次 ， 是 计算 机 系统 中 提供 并 发 的 基本 机 制 。 

在 硬件 层 ， 异 常 是 由 处 理 器 中 的 事件 触发 的 控制 流 中 的 突变 。 控 制 流传 递 给 一 个 软件 处 理 程序 ， 该 
处 理 程 序 进行 一 些 处 理 ， 然 后 返回 控制 给 被 中 断 的 控制 流 。 

有 四 种 不 同类 型 的 异常 : 中断、 故障 、 终 止 和 陷阱 。 当 一 个 外 部 I/O 设备 (例如 定时 器 芯片 或 者 磁盘 
控制 器 ) 设 置 了 处 理 器 芯片 上 的 中 断 管 脚 时 ，( 对 于 任意 指令 ) 中 断 会 异步 地 发 生 。 控 制 返回 到 故障 指令 后 
面 的 那 条 指令 。 一 条 指令 的 执行 可 能 导致 故障 和 终止 同步 发 生 。 故 障 处 理 程序 会 重新 启动 故障 指令 ， 而 
终止 处 理 程序 从 不 将 控制 返回 给 被 中 断 的 流 。 最 后 ， 陷 阱 就 像 是 用 来 实现 向 应 用 提供 到 操作 系统 代码 的 
受 控 的 入 口 点 的 系统 调用 的 函数 调用 。 

在 操作 系统 层 ， 内 核 用 ECF 提供 进程 的 基本 概念 。 进 程 提供 给 应 用 两 个 重要 的 抽象 ， 1) 逻辑 控制 
流 ， 它 提供 给 每 个 程序 一 个 假象 ， 好 像 它 是 在 独占 地 使 用 处 理 器 ，2) 私 有 地 址 空间 ， 它 提供 给 每 个 程序 
一 个 假象 ， 好 像 它 是 在 独占 地 使 用 主 存 。 

在 操作 系统 和 应 用 程序 之 间 的 接口 处 ， 应 用 程序 可 以 创建 子 进 程 ， 等 待 它 们 的 子 进程 停止 或 者 终止 ， 
运行 新 的 程序 ， 以 及 捕获 来 自 其 他 进程 的 信号 。 信 和 号 处 理 的 语义 是 微妙 的 ， 并 且 随 系统 不 同 而 不 同 。 然 
而 ， 在 与 Posix 兼容 的 系统 上 存在 着 一 些 机 制 ， 允 许 程 序 清楚 地 指定 期 望 的 信号 处 理 语义 。 

最 后 ， 在 应 用 层 ，C 程序 可 以 使 用 非 本 地 跳 转 来 规避 正常 的 调用 /返回 栈 规则 ， 并 且 直 接 从 一 个 函数 
分 支 到 另 一 个 函数 。 


参考 文献 说 明 


Kerrisk 是 Linux 环境 编程 的 完全 参考 手册 [62]。Intel ISA 规范 包含 对 Intel 处 理 器 上 的 异常 和 中 断 
的 详细 讨论 [50]。 操 作 系 统 教科 书 [102，106，113j] 包 括 关于 异常 、 进 程 和 信号 的 其 他 信息 。W. Richard 
Stevens 的 [111] 是 一 本 有 价值 的 和 可 读 性 很 高 的 经 典 著作 ， 是 关于 如 何在 应 用 程序 中 人 处理 进程 和 信号 的 。 
Bovet 和 Cesati[11] 给 出 了 一 个 关于 Linux 内 核 的 非常 清晰 的 描述 ， 包 括 进程 和 信和 号 实现 的 细节 。 


家 庭 作 业 
.8.9 考虑 四 个 具有 如 下 开始 和 结束 时 间 的 进程 : 


进程 开始 时 间 结束 时 间 
5 














DNOHm> 
op 


2 
3 
1 
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对 于 每 对 进程 ， 指 明 它 们 是 否 是 并 发 地 运行 的 : 








进程 对 并 发 地 ? 
AB 
AC 
AD 
BC 
BD 
CD 



































*8.10 在 这 一 章 里 ， 我 们 介绍 了 一 些 具有 不 寻常 的 调用 和 返回 行为 的 图 数 : setjmp、longjmp、execve 
和 fork。 找 到 下 列 行为 中 和 每 个 函数 相 匹 配 的 一 种 : 
A. 调用 一 次 ， 返回 两 次 。 
B. 调用 一 次 ， 从 不 返回 。 
C. 调用 一 次 ， 返 回 一 次 或 者 多 次 。 
*8. 11 这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 





code/ecf/forkprobl.c 


1 #include "csapp.h" 

2 

3 int main() 

省 下 

5 A 

6 

7 for (i = 0; 1 < 2; it+) 
8 Fork(); 

9 printf ("hello\n'); 
10 exit (0); 

溃 。 宽 


code/ecf/forkprobl.c 


* 8. 12 ”这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 








code/ecf/forkprob4.c 
#include "csapp.h" 
2 
3 void doit() 
4 攻 
5 Fork() ; 
6 Fork() ; 
未 printf ("hello\n"); 
8 return; 
10 
11 int main() 
说 站 
13 doit() ; 
14 printf ("hello\n"); 
15 exit (0); 
ze 小 
code/ecf/forkprob4.c 
*8. 13 下 面 程序 的 一 种 可 能 的 输出 是 什么 ? 
code/ecf/forkprob3.c 





' #include "csapp.h" 
2 
3 int main() 





552 


* 8. 14 


8: 15 


*8.16 








第 二 部 分 在 系统 上 运行 程序 
4 并 
$ i 
6 
六 if (Fork() != 0) 
8 printf ("x=%d\n", ++Xx); 
9 
10 printf("x=%dNn", —=x); 
11 exit (0); 
位 站 
下 面 这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 





#include "csapp.h" 


void doit() 


{ 
if (Fork() == 0) { 
Fork() ; 
printf ("hello\n"); 
exit (0); 
站 
Teturn 
} 
int main() 
{ 
doit(); 
printf ("hello\n"); 
exit (0); 
} 


下 面 这 个 程序 会 输出 多 少 个 “hello” 输 出 行 ? 


#include "csapp.h" 


void doit() 


E 
if (Fork() == 0) { 
Fork(); 
printf ("hello\n"); 
return; 
} 
return; 
} 
int main() 
1 
doit() ; 
printf ("hello\n"); 
exit(0); 
} 





下 面 这 个 程序 的 输出 是 什么 ? 


code/ecf/forkprob3.c 


code/ecf/forkprob5.c 


code/ecf/forkprobS.c 


code/ecf/forkprob6.c 


code/ecf/forkprob6.c 
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v9. 17 
xx 8. 18 


** 8. 19 











code/ecf/forkprob7.c 
3 #include "csapp.h" 
2 int counter = 1; 
3 
4 int main() 
对 区 
6 if (fork() == 0) { 
by counter-—; 
8 exit (0); 
9 } 
10 else { 
11 Wait (NULL); 
12 printf ("counter = %d\n", ++counter); 
13 } 
14 exit (0); 
福 直 
code/ecf/forkprob7.c 
列举 练习 题 8. 4 中 程序 所 有 可 能 的 输出 。 
考虑 下 面 的 程序 : 
code/ecf/forkprob2.c 
1 #include "csapp.h" 
2 
3 void end(void) 
站” 二 
5 printf ("2"); fflush(stdout) ; 
6 3 
8 int main() 
名 ”下 
10 if (Fork() == 0) 
11 atexit(end) ; 
12 if (Fork() == 0) { 
13 printf ("0"); fflush(stdout) ; 
,14 } 
入 else { 
16 Printf("1"); fflush(stdout) ; 
17 } 
18 xi C0) 
19 3 
code/ecf/forkprob2.c 


判断 下 面 哪个 输出 是 可 能 的 。 注 意 : atexit 函数 以 一 个 指向 函数 的 指针 为 输入 ， 并 将 它 添 加 
到 函数 列表 中 (初始 为 空 )， 当 exit 函数 被 调用 时 ， 会 调用 该 列表 中 的 函数 。 





A. 112002 B. 211020 人 T02120 D: 122001 E. 100212 

下 面 的 函数 会 打印 多 少 行 输出 ? 用 一 个 的 函数 给 出 答案 。 假 设 ”之 1。 
code/ecf/forkprobs.c 

1 void foo(int n) 

雪 闵 

3 Tat 1 

4 

5 For (i = 0; EE < ns Ltt) 

6 Fork() ; 

7 printf ("hello\n"); 

8 exit(0); 

9 3} 


code/ecf/forkprobs.c 





554 ”第 二 部 分 在 系统 上 运行 程序 
** 8. 20 ”使 用 execve 编写 一 个 叫做 myls 的 程序 ， 该 程序 的 行为 和 /bin/1s 程序 的 一 样 。 你 的 程序 应 该 接 


** 8. 21 


xy 8. 22 


** 8. 23 


受 相 同 的 命令 行 参数 ， 解 释 同 样 的 环境 变量 ， 并 产生 相同 的 输出 。 

ls 程序 从 COLUMNS 环境 变量 中 获得 屏幕 的 宽度 。 如 果 没 有 设置 COLUMNS， 那 么 1s 会 假 
设 屏幕 宽 80 列 。 因 此 ， 你 可 以 通过 把 COLUMNS 环境 设置 得 小 于 80, 来 检查 你 对 环境 变量 的 
处 理 : 


linux> setenv COLUMNS 40 
linux> ./myls 


AN Output is 40 columns wide 


linux> unsetenv COLUMNS 
linux> ./myls 


N Output is now 80 columns wide 


下 面 的 程序 可 能 的 输出 序列 是 什么 ? 





code/ecf/waitprob3.c 
1 int main() 
A 
3 if (fork() == 0) { 
4 printf("a"); fflush(stdout); 
5 exit (0); 
6 } 
7 else { 
8 printf ("b"); fflush(stdout); 
9 waitpid(-1, NULL, 0); 
10 a 
| printf("c"); fflush(stdout); 
12 exit (0); 
i 
code/ecf/waitprob3.c 


编写 Unix system 函数 的 你 自己 的 版 本 


int mysystem(char *command); 


mysystem 函数 通过 调用 “/bin/sh-c command” 来 执行 command， 然 后 在 command 完成 后 返回 。 
如 果 command( 通 过 调用 exit 函数 或 者 执行 一 条 return 语句 ) 正 常 退 出 ,那么 mysystem 返回 
command 退出 状态 。 例 如 ， 如 果 command 通过 调用 exit (8) 终 止 ， 那 么 mysystem 返回 值 8。 否 
则 ， 如 果 command 是 异常 终止 的 ,那么 mysystem 就 返回 shell 返回 的 状态 。 

你 的 一 个 同事 想 要 使 用 信号 来 让 一 个 父 进程 对 发 生 在 子 进程 中 的 事件 计数 。 其 想法 是 每 次 发 生 一 
个 事件 时 ， 通 过 向 父 进 程 发 送 一 个 信号 来 通知 它 ， 并 且 让 父 进程 的 信号 处 理 程序 对 一 个 全 局 变量 
counter 加 一 ， 在 子 进程 终止 之 后 ， 父 进程 就 可 以 检查 这 个 变量 。 然 而 ， 当 他 在 系统 上 运行 图 8- 
45 中 的 测试 程序 时 ， 发 现 当 父 进程 调用 printf 时 ，counter 的 值 总 是 2， 即 使 子 进程 向 父 进程 发 
送 了 5 个 信号 也 是 如 此 。 他 很 困惑 ， 向 你 寻求 帮助 。 你 能 解释 这 个 程序 有 什么 错误 吗 ? 


code/ecf/counterprob.c 





#include "csapp.h" 
int counter = 0; 


void handler(int sig) 

下 
countert++; 
sleep(1); /* Do some work in the handler */ 
return; 


图 8-45 ”家庭 作 业 8. 23 中 引用 的 计数 器 程序 


oNOoO 一 


4 8.24 


如 8. 25 


村 8.26 
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i100 上 计 

答 

12 int main() 

13 { 

14 i 主 

订 

16 Signal (SIGUSR2, handler); 

全 

18 if (Fork() == 0) { /* Child */ 
19 for (E = 有 5 1 

20 Kill (getppid(), SIGUSR2); 
21 printf("sent SIGUSR2 to parent\n"); 
22 } 

23 exit (0); 

24 } 

25 

26 Wait (NULL); 

27 printf("counter=%d\n", counter); 
28 exit (0); 

29 } 





code/ecf/counterprob.c 
图 8-45 ( 续 ) 


修改 图 8-18 中 的 程序 ， 以 满足 下 面 两 个 条 件 : 
1) 每 个 子 进程 在 试图 写 一 个 只 读 文 本 段 中 的 位 置 时 会 异常 终止 。 
2) 父 进程 打印 和 下 面 所 示 相 同 ( 除 了 PID) 的 输出 : 
child 12255 terminated by signal 1i: Segmentation fault 
child 12254 terminated by signal 11: Segmentation fault 
提示 : 请 参考 psignal (3) 的 man 页。 
编写 fgets 图 数 的 一 个 版 本 ， 叫 做 tfgets， 它 5 秒 钟 后 会 超时 。tfgets 图 数 接收 和 fgets 相同 
的 输入 。 如 果 用 户 在 5 秒 内 不 键入 一 个 输入 行 ，tfgets 返回 NULL。 和 否则 ， 它 返回 一 个 指向 输入 


. 行 的 指针 。 


以 图 8-23 中 的 示例 作为 开始 点 ， 编 写 一 个 支持 作业 控制 的 shell 程序 。shell 必须 具有 以 下 特性 : 

@ 用 户 输入 的 命令 行 由 一 个 name、 零 个 或 者 多 个 参数 组 成 ， 它 们 都 由 一 个 或 者 多 个 空格 分 隔 开 。 
如 果 name 是 一 个 内 置 命令 ， 那 么 shell 就 立即 处 理 它 ， 并 等 待 下 一 个 命令 行 。 否 则 ，shell 就 假 
设 name 是 一 个 可 执行 文件 ， 在 一 个 初始 的 子 进程 (作业 ) 的 上 下 文中 加 载 并 运行 它 。 作 业 的 进程 
组 ID 与 子 进 程 的 PID 相同 。 

@ 每 个 作业 是 由 一 个 进程 ID(PID) 或 者 一 个 作业 ID(JID) 来 标识 的 ， 它 是 由 一 个 shell 分 配 的 任意 的 
小 正 整数 。JID 在 命令 行 上 用 前 缀 “ 扩 来 表示 。 比 如 ,“s5” 表 示 JID 5， 而 “5” 表 示 PID 5。 

@ 如 果 命 令 行 以 & 来 结束 ， 那 么 shell 就 在 后 台 运 行 这 个 作业 。 否 则 ，shell 就 在 前 台 运 行 这 个 作业 。 

@ 输入 Ctrl 十 CCCtrl 十 Z) ， 使 得 内 核发 送 一 个 SIGINT(SIGTSTP) 信 号 给 shell，shell 再 转发 给 前 
台 进 程 组 中 的 每 个 进程 © 

@ 内 置 命令 jobs 列 出 所 有 的 后 台 作 业 。 

@ 内 置 命 令 bg job 通过 发 送 一 个 SIGCONT 信号 重启 job， 然 后 在 后 台 运 行 它 。job 参数 可 以 是 一 
个 PID， 也 可 以 是 一 个 JID。 

@ 内 置 命令 fg job 通过 发 送 一 个 SIGCONT 信号 重启 7o8， 然 后 在 前 台 运 行 它 。 





日 ”注意 这 是 对 真实 的 shell 工作 方式 的 简化 。 真 实 的 shell 里 ， 内 核 响应 Ctrl 十 CC(Ctrl 十 Z)， 把 SIGINT(SIGT- 
STP) 直 接 发 送 给 终端 前 台 进 程 组 中 的 每 个 进程 。shell 用 tcsetpgrp 函数 管理 这 个 进程 组 的 成 员 ， 用 tc- 
setattr 函数 管理 终端 的 属性 ， 这 两 个 函数 都 超出 了 本 书 讲述 的 范围 。 可 以 参考 [62] 获 得 详细 信息 。 
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@ shell 回收 它 所 有 的 伪 死 子 进程 。 如 果 任 何 作业 因为 收 到 一 个 未 捕获 的 信号 而 终止 ， 那么 shell 就 
输出 一 条 消息 到 终端 ， 消息 中 包含 该 作业 的 PID 和 对 该 信号 的 描述 。 
图 8-46 展示 了 一 个 shell 会 话 示例 。 





linux> ./shell Run your shell program 
>bogus 

bogus: Command not found. Execve can't find executable 
>foo 10 

Job 5035 terminated by signal: Interrupt User types Ctrl+C 
>foo 100 & 

[1] 5036 foo 100 & 

>foo 200 多 

[2] 5037 foo 200 & 

>jobs 

[1] 5036 Running foo 100 & 

[2] 5037 Running foo 200 & 

>fg %1 

Job [1] 5036 stopped by signal: Stopped User types Ctrl+2 
>jobs 

[1] 5036 Stopped foo 100 & 

[2] 5037 Running foo 200 & 

>bg 5035 

5035: No such process 

>bg 5036 

[1] 5036 foo 100 & 

>/bin/kill 5036 

Job 5036 terminated by signal: Terminated 


> fg %2 Wait for fg job to finish 
>quit 
linux> Back to the Unix shell 








图 8-46 ”家 庭 作业 8. 26 的 shell 会 话 示 例 


练习 题 答案 
8.1 进程 A 和 B 是 互相 并 发 的 ， 就 像 B 和 C 一 样 ， 因 为 它们 各 自 的 执行 是 重合 的 ， 也 就 是 一 个 进程 在 
另 一 个 进程 结束 前 开始 。 进 程 A 和 C 不 是 并 发 的 ， 因 为 它们 的 执行 没有 重 又 ; A 在 C 开始 之 前 就 
结束 了 。 
8.2 在 图 8-15 的 示例 程序 中 ， 父 子 进程 执行 无 关 的 指令 集合 。 然 而 ， 在 这 个 程序 中 ， 父 子 进程 执行 的 
指令 集合 是 相关 的 ， 这 是 有 可 能 的 ， 因 为 父子 进程 有 相同 的 代码 段 。 这 会 是 一 个 概念 上 的 障碍 ， 所 
以 请 确认 你 理解 了 本 题 的 答案 。 图 8-47 给 出 了 进程 图 。 
A. 这 里 的 关键 点 是 子 进程 执行 了 两 个 printf 语句 。 在 fork 返回 之 后 ， 它 执行 第 6 行 的 printf。 
然后 它 从 话语 句 中 出 来 ， 执 行 第 7 行 的 printf 语句 。 下 面 是 子 进程 产生 的 输出 : 
pil: x=2 
P2: x=1 
B. 父 进程 只 执行 第 7 行 的 printf: 
p22: x=0 


Bl = 包 F233 区 = 
— >e— ye pe 子 进程 
ao 

这 == 志 





BP2: sre) 





>e i 父 进 程 


. 
main Eo EliEF exif 


图 8-47 练习 题 8.2 的 进程 图 
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8.3 我 们 知道 序列 acbc、abcc 和 bacc 是 可 能 的 ， 因 为 它们 对 应 有 进程 图 的 拓扑 排序 (图 8-48)。 而 像 
bcac 和 cbca 这 样 的 序列 不 对 应 有 任何 拓扑 排序 ， 因 此 它们 是 不 可 行 的 。 








a 芒 
人 9 一 exit 
Rednes pwrinited 
b 窜 
@- pe 一 上 @ 一 pe 
main fork pedrtt waitpid printf exit 


图 8-48 ”练习 题 8. 3 的 进程 图 


8.4 A. 只 简单 地 计算 进程 图 (图 8-49) 中 printf 顶点 的 个 数 就 能 确定 输出 行 数 。 在 这 里 ， 有 6 个 这 样 的 
顶点 ， 因 此 程序 会 打印 6 行 输出 。 
B. 任何 对 应 有 进程 图 的 拓扑 排序 的 输出 序列 都 是 可 能 的 。 例 如 : Hello、1、0、Bye、2、Bye 是 可 








能 的 。 
1 Bye 
芒 全 一 一 一 一 世 估 exit (2) 
BETntf Belnet 
Hello 0 1 Bye 
Ss 
main printf fork printfE waitpid printf printf exit 


图 8-49 练习 题 8.4 的 进程 图 


8.5 ”一 codeecfjhsnroozec 
unsigned int snooze(unsigned int secs) { 
unsigned int rc = Sleep(secs) ; 


printf ("Slept for %d of %d secs.\n'", secs-rc, secs); 
return rc; 


CN 上 whN 一 


code/ecf/snooze.c 


8 6 一 codeecfjjratyechoc 
#include "csapp.h" 


1 

3 int main(int argc, char *argv[], char *envp[]) 

本 二 

5 int i; 

6 

7 printf("Command-line arguments:\n"); 

8 for (i=0; argv[i] != NULL; i++) 

9 printf(" argv[%2d] : %s\n", i, argv[i]); 
10 

11 printf("\n"); 

记 printf("Environment variables:\n"); 

13 for (i=0; envp[i] != NULL; i++) 

14 printf(" envp[%2d] : %s\n", i, envp[i]); 
15 

16 exit (0); 

>: 


code/ecf/myecho.c 
8.7 只 要 休眠 进程 收 到 一 个 未 被 忽略 的 信号 ，sleep 函数 就 会 提前 返回 。 但是， 因为 收 到 一 个 SIGINT 
信号 的 默认 行为 就 是 终止 进程 (图 8-26)， 我 们 必须 设置 一 个 SIGINT 处 理 程序 来 允许 sleep 函数 返 
回 。 处 理 程序 简单 地 捕获 SIGNAL， 并 将 控制 返回 给 sleep 函数 ， 该 函数 会 立即 返回 。 


code/ecf/snooze.c 





1 #include "csapp.h" 
2 
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/* SIGINT handler */ 
void handler(int sig) 


{ 


3} 


return; /* Catch the signal and return */ 


unsigned int snooze(unsigned int secs) { 


} 


unsigned int rc = sleep(secs); 


printf("Slept for %d of %d secs.\n", secs-rc, secs); 
PotUrn FCs 


int main(int argc, char **argv) { 


if (arge l= 2) 区 
fprintf (stderr, "usage: %s <secs>\n", argv[0]); 


exit(0); 
} 
if (signal(SIGINT, handler) == SIG_ERR) /* Install SIGINT */ 
unix_error("signal error\n"); /* handler */ 
(void)snooze(atoi(argv[1])); 
exit (0); 


code/ecf/snooze.c 


这 个 程序 打印 字符 串 “213”， 这 是 卡 内 基 - 梅 隆 大 学 CS: APP 课程 的 缩写 名 。 父 进程 开始 时 打印 
“2”， 然 后 创建 子 进程 ， 子 进程 会 陷入 一 个 无 限 循环 。 然 后 父 进 程 向 子 进程 发 送 一 个 信号 ， 并 等 待 
它 终止 。 子 进程 捕获 这 个 信号 (中 断 这 个 无 限 循 环 )， 对 计数 器 值 (从 初始 值 2) 减 一 ， 打 印 “1”， 然 
后 终止 。 在 父 进程 回收 子 进程 之 后 ， 它 对 计数 器 值 ( 从 初始 值 2) 加 一 ， 打 印 “3”， 并 且 终 止 。 
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虚拟 内 在 


一 个 系统 中 的 进程 是 与 其 他 进程 共享 CPU 和 主 存 资源 的 。 然 而 ， 共 享 主 存 会 形成 一 
些 特殊 的 挑战 。 随 着 对 CPU 需求 的 增长 ， 进 程 以 某 种 合理 的 平滑 方式 慢 了 下 来 。 但 是 如 
果 太 多 的 进程 需要 太 多 的 内 存 ， 那 么 它们 中 的 一 些 就 根本 无 法 运行 。 当 一 个 程序 没有 空间 
可 用 时 ， 那 就 是 它 运 气 不 好 了 。 内 存 还 很 容易 被 破坏 。 如 果 某 个 进程 不 小 心 写 了 另 一 个 进 
程 使 用 的 内 存 ， 它 就 可 能 以 某 种 完全 和 程序 逻辑 无 关 的 令 人 迷惑 的 方式 失败 。 

为 了 更 加 有 效 地 管理 内 存 并 且 少 出 错 ， 现 代 系 统 提供 了 一 种 对 主 存 的 抽象 概念 ， 叫 做 
虚拟 内 存 (VM) 。 虚 拟 内 存 是 硬件 异常 、 硬 件 地 址 翻译 、 主 存 、 磁 盘 文 件 和 内 核 软件 的 完 
美 交互 ， 它 为 每 个 进程 提供 了 一 个 大 的 、 一 致 的 和 私有 的 地 址 空间 。 通 过 一 个 很 清晰 的 机 
制 ， 虚 拟 内 存 提 供 了 三 个 重要 的 能 力 : 1) 它 将 主 存 看 成 是 一 个 存储 在 磁盘 上 的 地 址 空间 的 
高 速 缓存 ， 在 主 存 中 只 保存 活动 区 域 ， 并 根据 需要 在 磁盘 和 主 存 之 间 来 回 传送 数据 ， 通 过 
这 种 方式 ， 它 高 效 地 使 用 了 主 存 。2) 它 为 每 个 进程 提供 了 一 致 的 地 址 空间 ， 从 而 简化 了 内 
存 管理 。3) 它 保护 了 每 个 进程 的 地 址 空间 不 被 其 他 进程 破坏 。 

虚拟 内 存 是 计算 机 系统 最 重要 的 概念 之 一 。 它 成 功 的 一 个 主要 原因 就 是 因为 它 是 沉默 
地 、 自 动 地 工作 的 ， 不 需要 应 用 程序 员 的 任何 干涉 。 既 然 虚拟 内 存在 幕后 工作 得 如 此 之 
好 ， 为 什么 程序 员 还 需要 理解 它 呢 ?有 以 下 几 个 原因 : 

@ 虚拟 内 存 是 核心 的 。 虚 拟 内 存 遍 及 计算 机 系统 的 所 有 层面 ， 在 硬件 异常 、 汇 编 器 、 

链接 器 、 加 载 器 、 共 享 对 象 、 文 件 和 进程 的 设计 中 扮演 着 重要 角色 。 理 解 虚拟 内 存 
将 帮助 你 更 好 地 理解 系统 通常 是 如 何 工作 的 。 

介 鹿 拟 内 存 是 强大 的 。 虚 拟 内 存 给 予 应 用 程序 强大 的 能 力 ， 可 以 创建 和 销毁 内 存 片 
(chunk)、 将 内 存 片 映射 到 磁盘 文件 的 某 个 部 分 ， 以 及 与 其 他 进程 共享 内 存 。 比 如 ， 
你 知道 可 以 通过 读 写 内 存 位 置 读 或 者 修改 一 个 磁盘 文件 的 内 容 吗 ? 或 者 可 以 加 载 一 
个 文件 的 内 容 到 内 存 中 ， 而 不 需要 进行 任何 显 式 地 复制 吗 ? 理解 虚拟 内 存 将 帮助 你 
利用 它 的 强大 功能 在 应 用 程序 中 添加 动力 。 

@ 虚拟 内 存 是 危险 的 。 每 次 应 用 程序 引用 一 个 变量 、 间 接 引用 一 个 指针 ， 或 者 调用 一 个 

诸如 malloc 这 样 的 动态 分 配 程序 时 ， 它 就 会 和 虚拟 内 存 发 生 交互 。 如 果 虚 拟 内 存 使 
用 不 当 ， 应 用 将 遇 到 复杂 危险 的 与 内 存 有 关 的 错误 。 例 如 ， 一 个 带 有 错误 指针 的 程序 
可 以 立即 崩 演 于 “有 段 错误 ”或 者 “保护 错误 ”， 它 可 能 在 崩溃 之 前 还 默默 地 运行 了 几 
个 小 时 ， 或 者 是 最 令 人 惊慌 地 ， 运 行 完 成 却 产 生 不 正确 的 结果 。 理 解 虚拟 内 存 以 及 诸 
如 malloc 之 类 的 管理 虚拟 内 存 的 分 配 程序 ， 可 以 帮助 你 避免 这 些 错 误 。 

这 一 章 从 两 个 角度 来 看 虚拟 内 存 。 本 章 的 前 一 部 分 描述 虚拟 内 存 是 如 何 工作 的 。 后 一 
部 分 描述 的 是 应 用 程序 如 何 使 用 和 管理 虚拟 内 存 。 无 可 避免 的 事实 是 虚拟 内 存 很 复杂 ， 本 
章 很 多 地 方 都 反映 了 这 一 点 。 好 消息 就 是 如 果 你 掌握 这 些 细节 ， 你 就 能 够 手工 模拟 一 个 小 
系统 的 虚拟 内 存 机 制 ， 而 且 虚 拟 内 存 的 概念 将 永远 不 再 神秘 。 

第 二 部 分 是 建立 在 这 种 理解 之 上 的 ， 向 你 展示 了 如 何在 程序 中 使 用 和 管理 虚拟 内 存 。 
你 将 学 会 如 何 通 过 显 式 的 内 存 映 射 和 对 像 malloc 程序 这 样 的 动态 内 存 分 配器 的 调用 来 管 
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理 虚 拟 内 存 。 你 还 将 了 解 到 C 程序 中 的 大 多 数 常见 的 与 内 存 有 关 的 错误 ， 并 学 会 如 何 避 免 
它们 的 出 现 。 


9.1 物理 和 虚拟 寻 址 
计算 机 系统 的 主 存 被 组 织 成 一 个 由 M 个 连续 的 字 节 大 小 的 单元 组 成 的 数组 。 每 字 节 


都 有 一 个 唯一 的 物理 地 址 (Physical Address， 主 存 
PA)。 第 一 个 字 节 的 地 址 为 0， 接 下 来 的 字 节 地 址 0 
为 1， 再 下 一 个 为 2， 依 此 类 推 。 给 定 这 种 简单 的 物理 地 址 “上 
结构 ，CPU 访问 内 存 的 最 自然 的 方式 就 是 使 用 物 
理 地 址 。 我 们 把 这 种 方式 称 为 物理 寻 址 (physical 5: 
addressing) 。 图 9-1 展示 了 一 个 物理 寻 址 的 示例 ， 
该 示例 的 上 下 文 是 一 条 加 载 指令 ， 它 读 取 从 物理 s: 






地 址 4 处 开始 的 4 字 节 字 。 当 CPU 执行 这 条 加 载 
指令 时 ， 会 生成 一 个 有 效 物 理 地 址 ， 通 过 内 存 总 
线 ， 把 它 传 递 给 主 存 。 主 存 取出 从 物理 地 址 4 处 数据 字 
开始 的 4 字 节 字 ， 并 将 它 返 回 给 CRU，CPU 会 将 团 9-1 不 使用 物理 寻 址 的 系统 
它 存 放 在 一 个 寄存 器 里 。 

早期 的 PC 使 用 物理 寻 址 ， 而 且 诸如 数字 信和 号 处 理 器 、 艇 和 人 式微 控制 器 以 及 Cray 超级 
计算 机 这 样 的 系统 仍然 继续 使 用 这 种 寻 址 方式 。 然 而 ， 现 代 处 理 器 使 用 的 是 一 种 称 为 虚拟 
寻 址 (virtual addressing) 的 寻 址 形式 ， 参 见 图 9-2 。 


















pa i 
虚拟 地 址 。 地 址 翻译 ”物理 地 址 。 六 一 一 一 
| 
| Sy 

Gs 

7: 

数据 字 
图 9-2 一 个 使 用 虚拟 寻 址 的 系统 


使 用 虚拟 寻 址 ，CPU 通过 生成 一 个 虚拟 地 址 (Virtual Address，VA) 来 访问 主 存 ， 这 
个 虚拟 地 址 在 被 送 到 内 存 之 前 先 转换 成 适当 的 物理 地 址 。 将 一 个 虚拟 地 址 转换 为 物理 地 址 
的 任务 叫做 地 址 翻译 (address translation)。 就 像 异常 处 理 一 样 ， 地 址 翻译 需要 CPU 硬件 
和 操作 系统 之 间 的 紧密 合作 。CPU 芯片 上 叫做 内 存 管 理 单元 (Memory Management Unit， 
MMU) 的 专用 硬件 ， 利 用 存放 在 主 存 中 的 查询 表 来 动态 翻译 虚拟 地 址 ， 该 表 的 内 容 由 操作 
系统 管理 。 


9.2 地 址 空间 
地 址 空间 (address space) 是 一 个 非 负 整数 地 址 的 有 序 集合 : 
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(001 85 
如 果 地 址 空间 中 的 整数 是 连续 的 ， 那么 我 们 说 它 是 一 个 线性 地 址 空间 (linear address 
space)。 为 了 简化 讨论 ， 我 们 总 是 假设 使 用 的 是 线性 地 址 空间 。 在 一 个 带 虚拟 内 存 的 系统 
中 ，CPU 从 一 个 有 N==2" 个 地 址 的 地 址 空间 中 生成 虚拟 地 址 ， 这 个 地 址 空间 称 为 虚拟 地 
址 空间 (virtual address space) : 
(051n255 NO—1} 
一 个 地 址 空间 的 大 小 是 由 表示 最 大 地 址 所 需要 的 位 数 来 描述 的 。 例 如 ， 一 个 包含 N= 
2" 个 地 址 的 虚拟 地 址 空间 就 叫做 一 个 ”位 地 址 空间 。 现 代 系 统 通 常 支持 32 位 或 者 64 位 虚 
拟 地 址 空间 。 
个 系统 还 有 一 个 物理 地 址 空间 (physical address space) ， 对 应 于 系统 中 物理 内 存 的 
M 个 字 节 ， 
(DT 一) 
M 不 要 求 是 2 的 宕 ， 但 是 为 了 简化 讨论 ， 我 们 假设 M=2”。 

地 址 空间 的 概念 是 很 重要 的 ， 因 为 它 清楚 地 区 分 了 数据 对 象 ( 字 节 ) 和 它们 的 属性 (地 
址 ) 。 一 旦 认识 到 了 这 种 区 别 ， 那 么 我 们 就 可 以 将 其 推广 ， 人 允许 每 个 数据 对 象 有 多 个 独立 
的 地 址 ， 其 中 每 个 地 址 都 选 自 一 个 不 同 的 地 址 空间 。 这 就 是 虚拟 内 存 的 基本 思想 。 主 存 中 
的 每 字 节 都 有 一 个 选 自 虚 拟 地 址 空间 的 虚拟 地 址 和 一 个 选 自 物 理 地 址 空间 的 物理 地 址 。 
BR 练习 题 9. 1 完成 下 面 的 表格 ， 填 写 缺 失 的 条 目 ， 并 且 用 适当 的 整数 取代 每 个 问号 。 

利用 下 列 单位 K 王 210(kilo， 千 )，M 王 220 (mega， 兆 ， 百 万 )，G 一 28 (giga， 千 兆 ， 


十 亿 )， 芽 二 2*% (tera， 万 亿 )，P 王 28(peta， 千 千 兆 ) ， 或 下 = 王 28 (exa， 千 兆 兆 ) 。 




















9.3 虚拟 内 存 作为 缓存 的 工具 


ER 虚拟 内 存 被 组 织 为 一 个 由 存放 在 磁盘 上 的 N 个 连续 的 字 节 大 小 的 单元 
组 成 的 数组 。 每 字 节 都 有 一 个 唯一 的 虚拟 地 址 ， 作 为 到 数组 的 索引 。 磁 盘 上 数组 的 内 容 被 
缓存 在 主 存 中 。 et Te ey 磁盘 ( 较 低层 ) 上 的 数据 被 分 割 成 块 ， 
这 些 块 作为 磁盘 和 主 存 ( 较 高 层 ) 之 间 的 传输 单元 。VM 系统 通过 将 虚拟 内 存 分 割 为 称 为 虚 
拟 页 (Virtual Page，VP) 的 大 小 固定 的 块 来 处 理 这 个 问题 。 每 个 虚拟 页 的 大 小 为 P= 二 2* 字 
节 。 类 似 地 ， 物 理 内 存 被 分 割 为 物理 页 (Physical Page，PP)， Te dw 
被 称 为 页 帧 (page frame))。 

在 任意 时 刻 ， 虚 拟 页 面 的 集合 都 分 为 三 个 不 相交 的 子 集 : 

@ 未 分 配 的 : VM 系统 还 未 分 配 ( 或 者 创建 ) 的 页 。 未 分 配 的 块 没有 任何 数据 和 它们 相 

关联 ， 因 此 也 就 不 占用 任何 磁盘 空间 。 

e 缓存 的 : 当前 已 缓存 在 物理 内 存 中 的 已 分 配 页 。 

@ 未 缓存 的 : 未 缓存 在 物理 内 存 中 的 已 分 配 页 。 

图 9-3 的 示例 展示 了 一 个 有 8 个 虚拟 页 的 小 虚拟 内 存 。 虚 拟 页 0 和 3 还 没有 被 分 配 ， 
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因此 在 磁盘 上 还 不 存在 。 虚 拟 页 1、4 和 6 被 缓存 在 物理 内 存 中 。 页 2、5 和 7 已 经 被 分 配 
了 ， 但 是 当前 并 未 缓存 在 主 存 中 。 











虚拟 内 存 物理 内 存 
VP0 
VP 1 
VP2 ”一 1 
虚拟 页 (VP ) 物理 页 (PP ) 
存储 在 磁盘 上 缓存 在 DRAM 中 


图 9-3 一 个 VM 系统 是 如 何 使 用 主 存 作 为 缓存 的 


9. 3. 1 DRAM 缓存 的 组 织 结构 


为 了 有 助 于 清晰 理解 存储 层次 结构 中 不 同 的 缓存 概念 ， 我 们 将 使 用 术语 SRAM 缓存 
来 表示 位 于 CPU 和 主 存 之 间 的 Ll1、L2 和 L3 高 速 缓存 ， 并 且 用 术语 DRAM 缓存 来 表示 
虚拟 内 存 系 统 的 缓存 ， 它 在 主 存 中 缓存 虚拟 页 。 

在 存储 层次 结构 中 ，DRAM 缓存 的 位 置 对 它 的 组 织 结构 有 很 大 的 影响 。 回 想 一 下 ， 
DRAM 比 SRAM 要 慢 大 约 10 倍 ， 而 磁盘 要 比 DRAM 慢 大 约 100 000 多 倍 。 因 此 ， 
DRAM 缓存 中 的 不 命中 比 起 SRAM 缓存 中 的 不 命中 要 昂贵 得 多 ， 这 是 因为 DRAM 缓存 
不 命中 要 由 磁盘 来 服务 ， 而 SRAM 缓存 不 命中 通常 是 由 基于 DRAM 的 主 存 来 服务 的 。 而 
且 ， 从 磁盘 的 一 个 扇 区 读 取 第 一 个 字 节 的 时 间 开 销 比 起 读 这 个 扇 区 中 连续 的 字 节 要 慢 大 约 
100 000 倍 。 归 根 到 底 ，DRAM 缓存 的 组 织 结构 完全 是 由 巨大 的 不 命中 开销 驱动 的 。 

因为 大 的 不 命中 处 罚 和 访问 第 一 个 字 节 的 开销 ， 虚 拟 页 往往 很 大 ， 通 常 是 4KB~ 
2MB。 由 于 大 的 不 命中 处 罚 ，DRAM 缓存 是 全 相 联 的 ， 即 任何 虚拟 页 都 可 以 放置 在 任何 
的 物理 页 中 。 不 命中 时 的 替换 策略 也 很 重要 ， 因 为 替换 错 了 虚拟 页 的 处 罚 也 非常 之 高 。 因 
此 ， 与 硬件 对 SRAM 缓存 相 比 ， 操 作 系统 对 DRAM 缓存 使 用 了 更 复杂 精密 的 替换 算法 。 
(这 些 替 换算 法 超出 了 我 们 的 讨论 范围 ) 。 最 后 ， 因 为 对 磁盘 的 访问 时 间 很 长 ，DRAM 组 
存 总 是 使 用 写 回 ， 而 不 是 直 写 。 


9. 3.2 页 表 


同 任何 缓存 一 样 ， 虚 拟 内 存 系统 必须 有 某 种 方法 来 判定 一 个 虚拟 页 是 否 缓存 在 
DRAM 中 的 某 个 地 方 。 如 果 是 ， 系 统 还 必须 确定 这 个 虚拟 页 存放 在 哪个 物理 页 中 。 如 果 
不 命中 ， 系 统 必须 判断 这 个 虚拟 页 存放 在 磁盘 的 哪个 位 置 ， 在 物理 内 存 中 选择 一 个 牺牲 
页 ， 并 将 虚拟 页 从 磁盘 复制 到 DRAM 中 ， 替 换 这 个 牺牲 页 。 

这 些 功能 是 由 软 硬 件 联合 提供 的 ， 包 括 操作 系统 软件 、MMU (内 存 管理 单元 ) 中 的 地 
址 翻译 硬件 和 一 个 存放 在 物理 内 存 中 叫做 页 表 (page table) 的 数据 结构 ， 页 表 将 虚拟 页 映 
射 到 物理 页 。 每 次 地 址 翻译 硬件 将 一 个 虚拟 地 址 转换 为 物理 地 址 时 ， 都 会 读 取 页 表 。 操 作 
系统 负责 维护 页 表 的 内 容 ， 以 及 在 磁盘 与 DRAM 之 间 来 回 传 送 页 。 

图 9-4 展示 了 一 个 页 表 的 基本 组 织 结构 。 页 表 就 是 一 个 页 表 条 目 (Page Table Entry， 
PTE) 的 数组 。 虚 拟 地 址 空间 中 的 每 个 页 在 页 表 中 一 个 固定 偏 移 量 处 都 有 一 个 PTE。 为 了 


第 9 童 虚拟 内 站 563 





我 们 的 目的 ， 我 们 将 假设 每 个 PTE 是 由 一 个 有 效 位 (valid bit) 和 一 个 n 位 地 址 字段 组 成 


的 。 有 效 位 表明 了 该 虚拟 页 当前 是 否 被 物理 内 存 
缓存 在 DRAM 中 。 如 果 设 置 了 有 效 位 ， _，。 物理 页 号 或 (DRAM) 





PPO 





ei st tt ng 磁盘 地 址 

物理 页 的 起 始 位 置 ， 这 个 物理 页 中 缓存 

页。 和 没有 没有 位 ， 
ea 

则 。 于 由。 当 个 地 址 就 指向 该 虚拟 页 在 





PP3 



































磁盘 上 ee 位 置 。 PTE7L1 se = 二 = 二 

图 9-4 中 的 示例 展示 了 一 个 有 8 个 Ni ~ 
虚拟 页 和 4 个 物理 页 的 系统 的 页 表 。 四 1 
个 虚拟 页 (VP 1、VP 2、VP 4 和 VP FF 
7) 当前 被 缓存 在 DRAM 中 。 两 个 页 | 
(VP 0 和 VP 5) 还 未 被 分 配 ， 而 剩 下 的 图 9-1 页 表 


页 (VP 3 和 VP 6) 已 经 被 分 配 了 ， 但 是 当前 还 未 被 缓存 。 图 9-4 中 有 一 个 要 点 要 注意 ， 因 
为 DRAM 缓存 是 全 相 联 的 ， 所 以 任意 物理 页 都 可 以 包含 任意 虚拟 页 。 
BE 练习 题 9 2 ”确定 下 列 庶 拟 地 址 大 小 (n) 和 页 大 小 (P) 的 组 合 所 需要 的 PTE 数量 : 


| PTE 数 量 





9. 3.3 页 命中 


考虑 一 下 当 CPU 想 要 读 包含 在 VP 2 中 的 虚拟 内 存 的 一 个 字 时 会 发 生 什 么 (图 9-5)，VP 
2 被 缓存 在 DRAM 中 。 使 用 我 们 将 在 9.6 节 中 详细 描述 的 一 种 技术 ， 地 址 翻译 硬件 将 虚 
拟 地 址 作为 一 个 索引 来 定位 PTE 2， 并 从 内 存 中 读 取 它 。 因 为 设置 了 有 效 位 ， 那 么 地 址 翻 
译 硬件 就 知道 VP 2 是 缓存 在 内 存 中 的 了 。 所 以 它 使 用 PTE 中 的 物理 内 存 地 址 (该 地 址 指 
向 PP 1 中 缓存 页 的 起 始 位 置 )， 构 造 出 这 个 字 的 物理 地 址 。 





























物理 内 存 
2 物理 页 号 或 (DRAM) 
[一 ] 有 阔 位 ， 微 各 地 址 ve! |PPpo 
PTE0 [0| null 
而 | vp4 |pp3 
四 
| i py 
0 eT 
0 | 
PRE | 
常 驻 内 存 的 页 家 ~ 3 
(DRAM ) i -= 
、C Yi |] 
VP6 














VP7 
图 9-5 VM 页 命中 。 对 VP 2 中 一 个 字 的 引用 就 会 命中 





9.3.4 缺 页 


在 虚拟 内 存 的 习惯 说 法 中 ，DRAM 缓存 不 命中 称 为 缺 页 (page fault)。 图 9-6 展示 了 

在 缺 页 之 前 我 们 的 示例 页 表 的 状态 。CPU 引用 了 VP 3 中 的 一 个 字 ，VP 3 并 未 缓存 在 

DRAM 中 。 地 址 翻译 硬件 从 内 存 中 读 取 PTE 3， 从 有 效 位 推断 出 VP 3 未 被 缓存 ， 并 且 触 

发 一 个 缺 页 异常 。 缺 页 异常 调用 内 核 中 的 缺 页 异常 处 理 程 序 ， 该 程序 会 选择 一 个 牺牲 页 ， 

在 此 例 中 就 是 存放 在 PP 3 中 的 VP 4。 如 果 VP 4 已 经 被 修改 了 ， 那 么 内核 就 会 将 它 复 制 

回 磁盘 。 无 论 哪 种 情况 ， 内 核 都 会 修改 VP 4 的 页 表 条 目 ， 反 映 出 VP 4 不 再 缓存 在 主 存 中 
这 一 事实 。 

虚拟 地 址 et 

是 DRAM ) 

[| ] 有效 位 Fy PP 0 











PP'3 





PTE7 





常 驻 内 存 的 页 表 人、 DC VP2 | 
(DRAM ) = | Wa | 





图 9-6 VM 缺 页 (之 前 )。 对 VP 3 中 的 字 的 引用 会 不 命中 ， 从 而 触发 了 缺 页 


接 下 来 ， 内 核 从 磁盘 复制 VP 3 到 内 存 中 的 PP 3， 更 新 PTE 3， 随 后 返回 。 当 异常 处 
理 程序 返回 时 ， 它 会 重新 启动 导致 缺 页 的 指令 ， 该 指令 会 把 导致 缺 页 的 虚拟 地 址 重 发 送 到 
地 址 翻译 硬件 。 但 是 现在 ，VP 3 已 经 缓存 在 主 存 中 了 ， 那 么 页 命中 也 能 由 地 址 翻译 硬件 
正常 处 理 了 。 图 9-7 展示 了 在 缺 页 之 后 我 们 的 示例 页 表 的 状态 。 


物理 内 存 
虚拟 地 址 物理 页 号 或 (DRAM) 
























虚拟 内 存 
(磁盘 ) 
、 VP1 
常 驻 内 存 的 页 表 、、、、、、 VP2 
( DRAM) Os VP3 
~ VP4 | 


一 一 
VP6 


VEY 




















图 9-7 VM 缺 页 (之 后 )。 缺 页 处 理 程序 选择 VP 4 作为 牺牲 页 ， 并 从 磁盘 上 用 VP 3 的 副本 取代 它 。 在 缺 页 
处 理 程 序 重新 启动 导致 缺 页 的 指令 之 后 ， 该 指令 将 从 内 存 中 正常 地 读 取 字 ， 而 不 会 再 产生 异常 
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虚拟 内 存 是 在 20 世纪 60 年 代 早 期 发 明 的 ， 远 在 CPU- 内 存 之 间 差 距 的 加 大 引发 产生 
SRAM 缓存 之 前 。 因 此 ， 虚 拟 内 存 系统 使 用 了 和 SRAM 缓存 不 同 的 术语 ， 即 使 它们 的 许 
多 概念 是 相似 的 。 在 虚拟 内 存 的 习惯 说 法 中 ， 块 被 称 为 页 。 在 磁盘 和 内 存 之 间 传 送 页 的 活 
动 叫做 交换 人 (swapping) 或 者 页 面 调 度 (paging)。 页 从 磁盘 换 入 (或 者 页 面 调 入 )DRAM 和 从 
DRAM 换 出 (或 者 页 面 调 出 ) 磁 盘 。 一 直 等 待 ， 直 到 最 后 时 刻 ， 也 就 是 当 有 不 命中 发 生 时 ， 
才 换 入 页 面 的 这 种 策略 称 为 按 需 页 面 调 度 (demand paging)。 也 可 以 采用 其 他 的 方法 ， 例 
如 尝试 着 预测 不 命中 ， 在 页 面 实际 被 引用 之 前 就 换 入 页 面 。 然 而 ， 所 有 现代 系统 都 使 用 的 
是 按 需 页 面 调度 的 方式 。 
































物理 内 存 
-世系 分 配 页 面 物理 页 号 或 (DRAM) 
i 有 效 位 ”磁盘 地 址 VP1 PP0 
图 9-8 展示 了 当 操 作 系 统 分 配 一 个 prE0[56 - null 一 和 一 | 
新 的 虚拟 内 存 页 时 对 我 们 示例 页 表 的 VE3 |pp3 
影响 ， 例 如 ， 调 用 malloc 的 结果 。 在 1 
这 个 示例 中 ，VP5 的 分 配 过 程 是 在 磁 0 人 < 虚拟 内 存 
盘 上 创建 空间 并 更 新 PTE 5， 使 它 指 ~ td 
6 这 个 新 创建 的 页 面 。 PTE7 ~ | | 
向 磁盘 上 这 个 新 创建 的 页 面 A i 
9. 3.6 又 是 局 部 性 救 了 我 们 "WHE We ge 
当 我 们 中 的 许多 人 都 了 解 了 虚拟 ~ Ww | 
内 存 的 概念 之 后 ， 我 们 的 第 一 印象 通 | 
常 是 它 的 效率 应 该 是 非常 低 。 因 为 不 [二 一 一 
命中 处 罚 很 大 ， 我 们 担心 页 面 调度 会 ”图 9-8 分 配 一 个 新 的 虚拟 页 面 。 内 核 在 磁盘 上 分 配 VP 5， 
破坏 程序 性 能 。 实 际 上 ， 虚 拟 内 存 工 并 且 将 PTE 5 指向 这 个 新 的 位 置 


作 得 相当 好 ， 这 主要 归功 于 我 们 的 老 朋 友 局 部 性 (locality) 。 

.尽管 在 整个 运行 过 程 中 程序 引用 的 不 同 页 面 的 总 数 可 能 超出 物理 内 存 总 的 大 小 ， 但 是 局 部 
性 原则 保证 了 在 任意 时 刻 ， 程 序 将 趋向 于 在 一 个 较 小 的 活动 页 面 (active page) 集 合 上 工作 ， 这 个 
集合 叫做 工作 集 (working set) 或 者 常 驻 集合 (resident set) 。 在 初始 开销 ， 也 就 是 将 工作 集 页 面 调 
度 到 内 存 中 之 后 ， 接 下 来 对 这 个 工作 集 的 引用 将 导致 命中 ， 而 不 会 产生 额外 的 磁盘 流量 。 

只 要 我 们 的 程序 有 好 的 时 间 局 部 性 ， 虚 拟 内 存 系统 就 能 工作 得 相当 好 。 但 是 ， 当 然 不 
是 所 有 的 程序 都 能 展现 良好 的 时 间 局 部 性 。 如 果 工 作 集 的 大 小 超出 了 物理 内 存 的 大 小 ， 那 
么 程序 将 产生 一 种 不 幸 的 状态 ， 叫 做 抖动 (thrashing)， 这 时 页 面 将 不 断 地 换 进 换 出 。 虽 然 
虚拟 内 存 通 常 是 有 效 的 ， 但 是 如 果 一 个 程序 性 能 慢 得 像 候 一 样 ， 那 么 聪明 的 程序 员 会 考虑 
是 不 是 发 生 了 抖动 。 


医 当 统计 缺 页 次 数 
你 可 以 利用 Linux 的 getrusage 函数 监测 缺 页 的 数量 (以 及 许多 其 他 的 信息 )。 


9.4 虚拟 内 存 作为 内 存 管理 的 工具 


在 上 一 节 中 ， 我们 看 到 虚拟 内 存 是 如 何 提供 一 种 机 制 ， 利 用 DRAM 缓存 来 自 通常 更 
大 的 虚拟 地 址 空间 的 页 面 。 有 趣 的 是 ， 一 些 早期 的 系统 ， 比 如 DEC PDP-11/70， 支 持 的 
是 一 个 比 物理 内 存 更 小 的 虚拟 地 址 空间 。 然 而 ， 虚 拟 地 址 仍然 是 一 个 有 用 的 机 制 ， 因 为 它 





大 大 地 简化 了 内 存 管理 ， 并 提供 了 一 种 自然 的 保护 内 存 的 方法 。 


到 目前 为 止 ， 我 们 都 假设 有 一 个 单 
独 的 页 表 ， 将 一 个 虚拟 地 址 空间 映射 到 
物理 地 址 空间 。 实 际 上 ， 操 作 系 统 为 每 
个 进程 提供 了 一 个 独立 的 页 表 ， 因 而 也 
就 是 一 个 独立 的 虚拟 地 址 空间 。 图 9-9 
展示 了 基本 思想 。 在 这 个 示例 中 ， 进 程 
i 的 页 表 将 V Pl 映射 到 PP 2，VP 2 映 
射 到 PP 7。 相 似 地 ， 进 程 7 的 页 表 将 
VP 1 映射 到 PP 7，VP 2 映射 到 PP 
10。 注 意 ， 多 个 虚拟 页 面 可 以 映射 到 同 
一 个 共享 物理 页 面 上 。 












































物理 内 存 
虚拟 地 址 空间 0 
0 | | 
ee Tp 
N-1 er 
6 PB7 | 共享 页 面 
Pe VE1 
进程 j: VP2 PP 10 
N-1 Es 
M-1 











图 9-9 ”VM 如 何 为 进程 提供 独立 的 地 址 空间 。 操 作 系统 
为 系统 中 的 每 个 进程 都 维护 一 个 独立 的 页 表 


按 需 页 面 调度 和 独立 的 虚拟 地 址 空间 的 结合 ， 对 系统 中 内 存 的 使 用 和 管理 造成 了 深远 的 

影响 。 特 别 地 ，VM 简化 了 链接 和 加 载 、 代 码 和 数据 共享 ， 以 及 应 用 程序 的 内 存 分 配 。 

@ 简化 链接 。 独 立 的 地 址 空间 允许 每 个 进程 的 内 存 映像 使 用 相同 的 基本 格式 ， 而 不 管 
代码 和 数据 实际 存放 在 物理 内 存 的 何 处 。 例 如 ， 像 我 们 在 图 8-13 中 看 到 的 ， 一 个 给 
定 的 Linux 系统 上 的 每 个 进程 都 使 用 类 似 的 内 存 格式 。 对 于 64 位 地 址 空间 ， 代 码 
段 总 是 从 虚拟 地 址 0x400000 开始 。 数 据 段 跟 在 代码 段 之 后 ， 中 间 有 一 段 符合 要 求 
的 对 齐 空白 。 栈 占据 用 户 进程 地 址 空间 最 高 的 部 分 ， 并 向 下 生长 。 这 样 的 一 致 性 极 
大 地 简化 了 链接 器 的 设计 和 实现 ， 人 允许 链接 器 生成 完全 链接 的 可 执行 文件 ， 这 些 可 
执行 文件 是 独立 于 物理 内 存 中 代码 和 数据 的 最 终 位 置 的 。 

e 简化 加 载 。 虚 拟 内 存 还 使 得 容易 向 内 存 中 加 载 可 执行 文件 和 共享 对 象 文件 。 要 把 目 
标 文件 中 .text 和 .data 节 加 载 到 一 个 新 创建 的 进程 中 ，Linux 加 载 器 为 代码 和 数 
据 段 分 配 虚拟 页 ， 把 它们 标记 为 无 效 的 ( 即 未 被 缓存 的 ) ， 将 页 表 条 目 指向 目标 文件 
中 适当 的 位 置 。 有 趣 的 是 ， 加 载 器 从 不 从 磁盘 到 内 存 实 际 复制 任何 数据 。 在 每 个 页 
初次 被 引用 时 ， 要 么 是 CPU 取 指 令 时 引用 的 ， 要么 是 一 条 正在 执行 的 指令 引用 一 
个 内 存 位置 时 引用 的 ， 虚 拟 内 存 系 统 会 按照 需要 自动 地 调和 数据 页 。 

将 一 组 连续 的 虚拟 页 映射 到 任意 一 个 文件 中 的 任意 位 置 的 表示 法 称 作 内 存 映射 (mem- 
ory mapping) 。Linux 提供 一 个 称 为 mmap 的 系统 调用 ， 人 允许 应 用 程序 自己 做 内 存 映 
射 。 我 们 会 在 9. 8 节 中 更 详细 地 描述 应 用 级 内 存 映射 。 

e 简化 共享 。 独 立地 址 空间 为 操作 系统 提供 了 一 个 管理 用 户 进 程 和 操作 系统 自身 之 间 
共享 的 一 致 机 制 。 一 般 而 言 ， 每 个 进程 都 有 自己 私有 的 代码 、 数 据 、 堆 以 及 栈 区 
域 ， 是 不 和 其 他 进程 共享 的 。 在 这 种 情况 中 ， 操 作 系 统 创 建 页 表 ， 将 相应 的 虚拟 页 


映射 到 不 连续 的 物理 页 面 。 


然而 ， 在 一 些 情况 中 ， 还 是 需要 进程 来 共享 代码 和 数据 。 例 如 ， 每 个 进程 必须 调用 相同 
的 操作 系统 内 核 代码 ， 而 每 个 C 程序 都 会 调用 C 标准 库 中 的 程序 ， 比 如 printf。 操 作 系统 
通过 将 不 同 进程 中 适当 的 虚拟 页 面 映射 到 相同 的 物理 页 面 ， 从 而 安排 多 个 进程 共享 这 部 分 代 
码 的 一 个 副本 ， 而 不 是 在 每 个 进程 中 都 包括 单独 的 内 核 和 C 标准 库 的 副本 ， 如 图 9-9 所 示 。 


简化 内 存 分 配 。 虚 拟 内 存 为 向 用 户 进程 提供 一 个 简单 的 分 配额 外 内 存 的 机 制 。 当 一 


个 运行 在 用 户 进 程 中 的 程序 要 求 额外 的 堆 空 间 时 (如 调用 malloc 的 结果 )， 操 作 系 
统 分 配 一 个 适当 数字 (例如 &) 个 连续 的 虚拟 内 存 页 面 ， 并 且 将 它们 映射 到 物理 内 存 
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中 任意 位 置 的 & 个 任意 的 物理 页 面 。 由 于 页 表 工 作 的 方式 ， 操 作 系 统 没 有 必要 分 配 
& 个 连续 的 物理 内 存 页 面 。 页 面 可 以 随机 地 分 散在 物理 内 存 中 。 


9.5 虚拟 内 存 作为 内 存 保护 的 工具 


任何 现代 计算 机 系统 必须 为 操作 系统 提供 手段 来 控制 对 内 存 系统 的 访问 。 不 应 该 允许 
一 个 用 户 进程 修改 它 的 只 读 代码 段 。 而 且 也 不 应 该 允许 它 读 或 修改 任何 内 核 中 的 代码 和 数 
据 结 构 。 不 应 该 允许 它 读 或 者 写 其 他 进程 的 私有 内 存 ， 并 且 不 允许 它 修 改 任何 与 其 他 进程 
共享 的 虚拟 页 面 ， 除 非 所 有 的 共享 者 都 显 式 地 人 允许 它 这 么 做 (通过 调用 明确 的 进程 间 通 信 
系统 调用 ) 。 
就 像 我 们 所 看 到 的 ， 提 供 独 立 的 地 址 空间 使 得 区 分 不 同 进 程 的 私有 内 存 变 得 容易 。 但 
是 ， 地 址 翻译 机 制 可 以 以 一 种 自然 的 方式 扩展 到 提供 更 好 的 访问 控制 。 因 为 每 次 CPU 生 
成 一 个 地 址 时 ， 地 址 翻译 硬件 都 会 读 一 个 PTE， 所 以 通过 在 PTE 上 添加 一 些 额外 的 许可 
位 来 控制 对 一 个 虚拟 页 面 内 容 的 访问 十 分 简单 。 图 9-10 展示 了 大 致 的 思想 。 
带 许可 位 的 页 表 
SUP READ WRITE 地 址 
PP6 


进程 VP1 HHH 
:| 是 | 是 | 
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SUP READ WRITE 地 址 


| 宕 | 是 | 委 | Be «| 
| 





图 9-10 用 虚拟 内 存 来 提供 页 面 级 的 内 存 保护 


在 这 个 示例 中 ， 每 个 PTE 中 已 经 添加 了 三 个 许可 位 。SUP 位 表示 进程 是 否 必须 运行 
在 内 核 (超级 用 户 ) 模 式 下 才能 访问 该 页 。 运 行 在 内 核 模式 中 的 进程 可 以 访问 任何 页 面 ， 但 
是 运行 在 用 户 模式 中 的 进程 只 允许 访问 那些 SUP 为 0 的 页 面 。READ 位 和 WRITE 位 控 
制 对 页 面 的 读 和 写 访问 。 例 如 ， 如 果 进 程 i 运行 在 用 户 模式 下 ， 那 么 它 有 读 VP 0 和 读 写 
VP 1 的 权限 。 然 而 ， 不 允许 它 访 问 VP 2。 

如 果 一 条 指令 违反 了 这 些许 可 条 件 ， 那 么 CPU 就 触发 一 个 一 般 保护 故障 ， 将 控制 传 
递 给 一 个 内 核 中 的 异常 处 理 程 序 。Linux shell 一 般 将 这 种 异常 报告 为 “ 段 错误 (segmenta- 


tion fault)”。 


9.6 地 址 翻译 


这 一 节 讲 述 的 是 地 址 翻译 的 基础 知识 。 我 们 的 目标 是 让 你 了 解 硬件 在 支持 虚拟 内 存 中 
的 角色 ， 并 给 出 足够 多 的 细节 使 得 你 可 以 亲手 演示 一 些 具体 的 示例 。 不 过 ， 要 记 住 我 们 省 
略 了 大 量 的 细节 ， 尤 其 是 和 时 序 相关 的 细节 ， 虽 然 这 些 细 节 对 硬件 设计 者 来 说 是 非常 重要 
的 ， 但 是 超出 了 我 们 讨论 的 范围 。 图 9-11 概括 了 我 们 在 这 节 里 将 要 使 用 的 所 有 符号 ， 供 
读者 参考 。 


568 ”第 二 部 分 在 系统 上 运行 程序 









































基本 参数 

符 号 描 述 | 
N=7 虚拟 地 址 空间 中 的 地 址 数量 
M= 77 物理 地 址 空间 中 的 地 址 数量 
P=7 页 的 大 小 〈 字 节 ) 

庶 拟 地 址 (VA) 的 组 成 部 分 

符 号 描 述 
VPO 虚拟 页 面 偏 移 量 ( 字 节 ) 
VEN 虚拟 页 号 | 
TLBI TLB 索引 
TLBT TLB 标记 








物理 地 址 (PA) 的 组 成 部 分 
描 述 
物理 页 面 偏 移 量 〈 字 节 ) 
物理 页 号 
缓冲 块 内 的 字 节 偏 移 量 
高 速 缓存 索引 
高 速 缓存 标记 







































图 9-11 地 址 翻译 符号 小 结 


形式 上 来 说 ， 地 址 翻译 是 一 个 元 素 的 虚拟 地 址 空间 (VAS) 中 的 元 素 和 一 个 M 元 素 

的 物理 地 址 空间 (PAS) 中 元 素 之 间 的 映射 ， 
MAP:VAS— PASUS 
这 里 
MAPCA) 二 (人 如 果 虚拟 地 址 A 处 的 数据 在 PAS 的 物理 地 址 A" 处 
多 如 果 虚 拟 地 址 A 处 的 数据 不 在 物理 内 存 中 

图 9-12 展示 了 MMU 如 何 利用 页 表 来 实现 这 种 映射 。CPU 中 的 一 个 控制 寄存 器 ， 页 表 
基 址 寄存 器 (Page Table Base Register，PTBR) 指 向 当前 页 表 。n 位 的 虚拟 地 址 包含 两 个 部 分 : 
一 个 p 位 的 虚拟 页 面 偏 移 (Virtual Page Offset，VPO) 和 一 个 (2 一 加 ) 位 的 虚拟 页 号 (Virtual 


n-l pp-l 
虚拟 页 号 (VPN ) 虚拟 页 偏 移 量 ( VPO ) 
















有 效 位 ”物理 页 号 (PPN ) 


如 果 有 效 位 =0， 
那么 页 面 就 不 在 


存储 器 中 〈 缺 页 ) m-l 及 区 = 0 
物理 页 偏 移 量 ( PPO ) 


物理 地 址 
图 9-12 使 用 页 表 的 地 址 翻译 
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Page Number，VPN) 。MMU 利用 VPN 来 选择 适当 的 PTE。 例如 ，VPN 0 选择 PTE 0， 
VPN 1 选择 PTE 1， 以 此 类 推 。 将 页 表 条 目 中 物理 页 号 (Physical Page Number，PPN) 和 虚拟 
地 址 中 的 VPO 串联 起 来 ， 就 得 到 相应 的 物理 地 址 。 注 意 ， 因 为 物理 和 虚拟 页 面 都 是 书 字 节 
的 ， 所 以 物理 页 面 偏 移 (Physical Page Offset，PPO) 和 VPO 是 相同 的 。 

图 9-13a 展示 了 当 页 面 命中 时 ，CPU 硬件 执行 的 步 又 。 

@ 第 1 步 : 处 理 器 生成 一 个 虚拟 地 址 ， 并 把 它 传送 给 MMU。 

@ 第 2 步 : MMU 生成 PTE 地 址 ， 并 从 高 速 缓存 / 主 存 请 求 得 到 它 。 

@ 第 3 步 : 高 速 缓存 / 主 存 向 MMU 返回 PTE。 

@ 第 4 步 : MMU 构造 物理 地 址 ， 并 把 它 传送 给 高 速 缓存 / 主 存 。 

e@ 第 5 步 :高 速 缓存 / 主 存 返回 所 请 求 的 数据 字 给 处 理 器 。 


高 速 组 
存 /内 存 











b ) 缺 页 


图 9-13 页 面 命中 和 缺 页 的 操作 图 C(VA: 虚拟 地 址 。PTEA: 页 表 条 目地 址 。 
PTE: 页 表 条 目 。PA: 物理 地 址 ) 


页 面 命中 完全 是 由 硬件 来 处 理 的 ， 与 之 不 同 的 是 ， 处 理 缺 页 要 求 硬 件 和 操作 系统 内 核 
协作 完成 ， 如 图 9-13b 所 示 。 

@ 第 1 步 到 第 3 步 : 和 图 9-13a 中 的 第 1 步 到 第 3 步 相 同 。 

@ 第 4 步 : PTE 中 的 有 效 位 是 零 ， 所 以 MMU 触发 了 一 次 异常 ， 传 递 CPU 中 的 控制 
到 操作 系统 内 核 中 的 缺 页 异常 处 理 程序 。 

e@ 第 5 步 : 缺 页 处 理 程序 确定 出 物理 内 存 中 的 牺牲 页 ， 如 果 这 个 页 面 已 经 被 修改 了 ， 
则 把 它 换 出 到 磁盘 。 

@ 第 6 步 : 缺 页 处 理 程序 页 面 调 人 新 的 页 面 ， 并 更 新 内 存 中 的 PTE。 
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第 7 步 : 缺 页 处 理 程序 返回 到 原来 的 进程 ， 再 次 执行 导致 缺 页 的 指令 。CPU 将 引起 缺 
es MMU。 因 为 虚拟 页 面 现 在 缓存 在 物理 内 存 中 ， 所 以 就 会 命 
中 ， MMU 执行 了 图 9-13b 中 的 步骤 之 后 ， 主 存 就 会 将 所 请 求 字 返回 给 处 理 器 。 
ESN 练习 题 给 定 一 个 32 位 的 虚拟 地 址 空间 和 一 个 24 位 的 物理 地 址 ， 对 于 下 面 的 页 
面 大 小 也， Be VPN、VPO、PPN 和 PPO 中 的 位 数 : 


VPN 位 数 VPO 位 数 PPN 位 数 PPO 位 数 
1KB 


9. 6. 1 结合 高 速 缓存 和 虚拟 内 存 


在 任何 既 使 用 虚拟 内 存 又 使 用 SRAM 高 速 缓存 的 系统 中 ， 都 有 应 该 使 用 虚拟 地 址 还 
是 使 用 物理 地 址 来 访问 SRAM 高 速 缓存 的 问题 。 尽 管 关 于 这 个 折 中 的 详细 讨论 已 经 超出 
了 我 们 的 讨论 范围 ， 但 是 大 多 数 系统 是 选择 物理 寻 址 的 。 使 用 物理 寻 址 ， 多 个 进程 同时 在 
高 速 缓存 中 有 存储 块 和 共享 来 自 相同 虚拟 页 面 的 块 成 为 很 简单 的 事情 。 而 且 ， 高 速 缓存 无 
需 处 理 保 护 问题 ， 因 为 访问 权限 的 检查 是 地 址 翻译 过 程 的 一 部 分 。 

图 9-14 展示 了 一 个 物理 寻 址 的 高 速 缓存 如 何 和 虚拟 内 存 结合 起 来 。 主 要 的 思路 是 地 
址 翻译 发 生 在 高 速 缓存 查找 之 前 。 注 意 ， 页 表 条 目 可 以 缓存 ， 就 像 其 他 的 数据 字 一 样 。 
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图 9-11 将 VM 与 物理 寻 址 的 高 速 缓存 结合 起 来 (VA: 虚拟 地 址 。 
PTEA: 页 表 条 目地 址 。PTE: 页 表 条 目 。PA: 物理 地 址 ) 


9.6.2 利用 TLB 加 速 地 址 翻译 


正如 我 们 看 到 的 ， 每 次 CPU 产生 一 个 虚拟 地 址 ，MMU 就 必须 查阅 一 个 PTE， 以 便 
将 虚拟 地 址 翻译 为 物理 地 址 。 在 最 糟糕 的 情况 下 ， 这 会 要 求 从 内 存 多 取 一 次 数据 ， 代 价 是 
几 十 到 几 百 个 周期 。 如 果 PTE 碰巧 缓存 在 Ll 中， 那么 开销 就 下 降 到 1 个 或 2 个 周期 。 然 
而 ， 许 多 系统 都 试图 消除 即使 是 这 样 的 开销 ， 它 们 在 MMU 中 包括 了 一 个 关于 PTE 的 小 
的 缓存 ， 称 为 翻译 后 备 缓冲 器 (Translation Lookaside Buffer，TLB) 。 


TLB 是 一 个 小 的 、 虚 拟 寻 址 的 缓存 , 其 1 p+t ptt-1 pp-l 
中 每 一 行 都 保存 着 一 个 由 单个 PTE 组 成 的 块 。 [aa fn rn Twi] 
TLB 通常 有 高 度 的 相 联 度 。 如 图 9-15 所 示 ， a 


用 于 组 选择 和 行 匹 配 的 索引 和 标记 字段 是 从 图 9-15 虚拟 地 址 中 用 以 访问 TLB 的 组 成 部 分 
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虚拟 地 址 中 的 虚拟 页 号 中 提取 出 来 的 。 如 果 TLB 有 T=2 个 组 ,那么 TLB 索引 (TLBI) 是 由 
VPN 的 i 个 最 低位 组 成 的 ， 而 TLB 标记 (TLBT) 是 由 VPN 中 剩余 的 位 组 成 的 。 

图 9-16a 展示 了 当 TLB 命中 时 (通常 情况 ) 所 包括 的 步骤 。 这 里 的 关键 点 是 ， 所 有 的 地 
址 翻译 步 又 都 是 在 芯片 上 的 MMU 中 执行 的 ， 因 此 非常 快 。 

e 第 1 步 CPU 产生 一 个 虚拟 地 址 。 

@ 第 2 步 和 第 3 步 :  MMU 从 TLB 中 取出 相应 的 PTE。 

e 第 4 步 : MMU 将 这 个 虚拟 地 址 翻译 成 一 个 物理 地 址 ， 并 且 将 它 发 送 到 高 速 缓存 / 主 存 。 

@ 第 5 步 : 高 速 缓存 / 主 存 将 所 请 求 的 数据 字 返 回 给 CPU。 

当 TLB 不 命中 时 ，MMU 必须 从 L1 缓存 中 取出 相应 的 PTE， 如 图 9-16b 所 示 。 新 取 
出 的 PTE 存放 在 TLB 中 ， 可 能 会 覆盖 一 个 已 经 存在 的 条 目 。 


高 速 组 
存 /内 存 














(9) 数据 
a) TLB 命中 b ) TLB 不 命中 
图 9-16 TLB 命中 和 不 命中 的 操作 图 


9.6.3 多 级 页 表 


到 目前 为 止 ， 我 们 一 直 假 设 系统 只 es deg eth ee roe 
有 一 个 32 位 的 地 址 空 i 字 节 的 PTE， 那 么 即使 应 用 所 引用 的 只 是 
虚拟 地 址 空间 中 很 小 的 一 部 分 ， ed ee 对 于 地 址 空 
间 为 64 位 的 系统 来 说 ， 问 题 将 变 得 更 复杂 。 

用 来 压缩 页 表 的 常用 方法 是 使 用 层次 结构 的 页 表 。 用 一 个 具体 的 示例 是 最 容易 理解 这 
个 思想 的 。 假 设 32 位 虚拟 地 址 空间 被 分 为 4KB 的 页 ， 而 每 个 页 表 条 目 都 是 4 字 节 。 还 假 
设 在 这 一 时 刻 ， 虚 拟 地 址 空间 有 如 下 形式 ， 内 存 的 前 2K 个 页 面 分 配给 了 代码 和 数据 ， 接 
下 来 的 6K 个 页 面 还 未 分 配 ， 再 接 下 来 的 1023 个 页 面 也 未 分 配 ， 接 下 来 的 1 个 页 面 分 配给 
了 用 户 栈 。 图 9-17 展示 了 我 们 如 何 为 这 个 虚拟 地 址 空间 构造 一 个 两 级 的 页 表层 次 结构 。 

一 级 页 表 中 的 每 个 PTE 负责 映射 虚拟 地 址 空间 中 一 个 4MB 的 片 (chunk)， 这 里 每 一 
片 都 是 由 1024 个 连续 的 页 面 组 成 的 。 比 如 ，PTE 0 映射 第 一 片 ，PTE 1 映射 接 下 来 的 一 
片 ， 以 此 类 推 。 假 设 地 址 空间 是 4GB，1024 个 PTE 已 经 足够 覆盖 整个 空间 了 。 

如 果 片 i 中 的 每 个 页 面 都 未 被 分 配 ， 那 么 一 级 PTE i 就 为 空 。 例 如 ， 图 9-17 中 ， 片 2 一 7 
是 未 被 分 配 的 。 然 而 ， 如 果 在 片 ;中 至 少 有 一 个 页 是 分 配 了 的 ， 那 么 一 级 PTE i 就 指向 一 
个 二 级 页 表 的 基 址 。 例 如 ， 在 图 9-17 中 , 片 0、1 和 8 的 所 有 或 者 部 分 已 被 分 配 ， 所 以 它 
们 的 一 级 PTE 就 指向 二 级 页 表 。 














一 级 页 表 二 级 页 表 虚拟 内 存 
VP0 
| Le Ml ME 
PTE0 VP 1023 已 分 配 的 2K 个 代码 和 
| PTEY | VP 1024 数据 VM 页 
PTE 2 (null) PTE 1023 
PTE 3 (null) VP 2047 
PTE 4 (null) PTEO 
PTE 5 (null) Eu 
PTE 6 (null) PTE 1023 











PLES I 
1023 个 空 


CIK-9) PTE 


空 PTE PTE 1023 
1023 
未 分 配 的 页 


| VP9215 | 























1023 个 未 分 配 的 页 





PTE 7 (null) Gap | 6K 个 未 分 配 的 VM 页 
} 


1 个 已 分 配 的 用 做 栈 的 VM 页 


图 9-17 一 个 两 级 页 表层 次 结构 。 注 意 地 址 是 从 上 往 下 增加 的 


二 级 页 表 中 的 每 个 PTE 都 负责 映射 一 个 4KB 的 虚拟 内 存 页 面 ， 就 像 我 们 查看 只 有 一 
级 的 页 表 一 样 。 注 意 ， 使 用 4 字 节 的 PTE， 每 个 一 级 和 二 级 页 表 都 是 4KB 字 节 ， 这 刚好 
和 一 个 页 面 的 大 小 是 一 样 的 。 

这 种 方法 从 两 个 方面 减少 了 内 存 要 求 。 第 一 ， 如 果 一 级 页 表 中 的 一 个 PTE 是 空 的 ， 
那么 相应 的 二 级 页 表 就 根本 不 会 存在 。 这 代表 着 一 种 巨大 的 潜在 节约 ， 因 为 对 于 一 个 典型 
的 程序 ，4GB 的 虚拟 地 址 空间 的 大 部 分 都 会 是 未 分 配 的 。 第 二 ， 只 有 一 级 页 表 才 需要 总 是 
在 主 存 中 ; 虚拟 内 存 系统 可 以 在 需要 时 创建 、 页 面 调 人 或 调 出 二 级 页 表 ， 这 就 减少 了 主 存 
的 压力 ; 只 有 最 经 常 使 用 的 二 级 页 表 才 需要 缓存 在 主 存 中 。 

图 9-18 描述 了 使 用 级 页 表层 次 结构 的 地 址 翻译 。 虚 拟 地 址 被 划分 成 为 个 VPN 和 
1 个 VPO。 每 个 VPN i 都 是 一 个 到 第 i 级 页 表 的 索引 ， 其 中 1<i<k。 第 j 级 页 表 中 的 每 
个 PTE，1<j<k 一 1， 都 指向 第 j 十 1 级 的 某 个 页 表 的 基 址 。 第 级 页 表 中 的 每 个 PTE 包 
含 某 个 物理 页 面 的 PPN, 或 者 一 个 磁盘 块 的 地 址 。 为 了 构造 物理 地 址 ， 在 能 够 确定 PPN 
之 前 ，MMU 必须 访问 & 个 PTE。 对 于 只 有 一 级 的 页 表 结构 ，PPO 和 VPO 是 相同 的 。 

虚拟 地 址 


级 页 表 


uh 


图 9-18 使 用 & 级 页 表 的 地 址 翻译 





物理 地 址 
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访问 & 个 PTE， 第 一 眼看 上 去 昂贵 而 不 切实 际 。 然 而 ， 这 里 TLB 能 够 起 作用 ， 正 是 
通过 将 不 同 层次 上 页 表 的 PTE 缓存 起 来 。 实 际 上 ， 带 多 级 页 表 的 地 址 翻译 并 不 比 单 级 页 
表 慢 很 多 。 

9.6.4 综合 : 端 到 端的 地 址 翻译 
在 这 一 节 里 ， 我 们 通过 一 个 具体 的 端 到 端的 地 址 翻译 示例 ， 来 综合 一 下 我 们 刚 学 过 的 
这 些 内 容 ， 这 个 示例 运 ee 个 TLB 和 LI1 d-cache 的 小 系统 上 。 为 了 保证 可 管理 性 ， 
我 们 做 出 如 下 假设 : 

e@ 内 存 是 按 字 节 寻 址 的 。 

e 内 存 访问 是 针对 1 字 节 的 字 的 (不 是 4 字 节 的 字 ) 。 

e 虚拟 地 址 是 14 位 长 的 (一 14) 。 

e 物理 地 址 是 12 位 长 的 (m==12)。 

e 页 面 大 小 是 64 字 节 (P= 二 64)。 

e TLB 是 四 路 组 相 联 的 ， 总 共有 16 个 条 目 。 

e@ L1 d-cache 是 物理 寻 址 、 直 接 映射 的 ， 行 大 小 为 4 字 节 ， 而 总 共有 16 个 组 。 

图 9-19 展示 了 虚拟 地 址 和 物理 地 址 的 格式 。 因 为 每 个 页 面 是 2 二 64 字 节 ， 所 以 虚拟 
地 址 和 物理 地 址 的 低 6 位 分 别 作 为 VPO 和 PPO。 虚 拟 地 址 的 高 8 位 作为 YPN。 物 理 地 址 
的 高 6 位 作为 PPN。 


13 下 i111 下 9 8 3 6 3 4 号 2 1 0 
ut ET TT TT TT TTT TT 


| VRO, 行人 


(虚拟 页 号 ) ( 虚拟 页 偏 移 ) 


掀 理 地 址 i ed i sd i i i 


= = ==sBh0 ====* 


(物理 页 号 ) (物理 页 偏 移 ) 


图 9-19 小 内 存 系统 的 寻 址 。 假 设 14 位 的 虚拟 地 址 (n= 二 14)， 
12 位 的 物理 地 址 (m= 二 12) 和 64 字 节 的 页 面 (P 王 64) 


图 9-20 展示 了 小 内 存 系统 的 一 个 快照 ， 包 括 TLB( 图 9-20a)、 页 表 的 一 部 分 (图 9- 
20b) 和 Ll 高 速 缓存 (图 9-20c)。 在 TLB 和 高 速 缓存 的 图 上 面 ， 我 们 还 展示 了 访问 这 些 设 
备 时 硬件 是 如 何 划 分 虚拟 地 址 和 物理 地 址 的 位 的 。 

”。 TLB。TLB 是 利用 VPN 的 位 进行 虚拟 寻 址 的 。 因 为 TLB 有 4 个 组 ， 所 以 VPN 的 
低 2 位 就 作为 组 索引 (CTLBI) 。VPN 中 剩 下 的 高 6 位 作为 标记 (TLBT)， 用 来 区 别 
可 能 映射 到 同一 个 TLB 组 的 不 同 的 VPN。 
e 页 表 。 这 个 页 表 是 一 个 单 级 设计 ,一 共有 2 二 256 个 页 表 条 目 (PTE)。 然 而 ， 我们 
只 对 这 些 条 目 中 的 开头 16 个 感 兴 趣 。 为 了 方便 ， 我 们 用 索引 它 的 VPN 来 标识 每 个 
PTE; 但 是 要 记 住 这 些 VPN 并 不 是 页 表 的 一 部 分 ， 也 不 储存 在 内 存 中 。 另 外 ， 注 
意 每 个 无 效 PTE 的 PPN 都 用 一 个 破 折 号 来 表示 ， 以 加 强 一 个 概念 : 无 论 刚 好 这 里 
存储 的 是 什么 位 值 ， 都 是 没有 任何 意义 的 。 
高 速 缓 在。 直接 映射 的 缓存 是 通过 物理 地 址 中 的 字段 来 寻 址 的 。 因 为 每 个 块 都 是 4 
字 节 ， 所 以 物理 地 址 的 低 2 位 作为 块 偏 移 (CO) 。 因 为 有 16 组 ， 所 以 接 下 来 的 4 位 
就 用 来 表示 组 索引 (CI) 。 剩 下 的 6 位 作为 标记 (CT) 。 








574 第 二 部 分 在 系统 上 运行 程序 
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1 让 区 了 和 6 于 加 1 


























a) TLB: 四 组 ，16 个 条 目 ， 四 路 组 相 联 


VPN PPN 有 效 位 VPN PPN 有 效 位 








b) 页 表 : 只 展示 了 前 16 个 PTE 


放 论 9 后 王 1 
物理 地 址 
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索引 标记 位 有 效 位 块 0 块 1 块 2 块 3 
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c) 高 速 缓存 : 16 个 组 ，4 字 节 的 块 ， 直 接 映 射 
图 9-20 小 内 存 系统 的 TLB、 页 表 以 及 缓存 。TLB、 页 表 和 缓存 中 所 有 的 值 都 是 十 六 进 制 表 示 的 


给 定 了 这 种 初始 化 设 定 ， 让 我 们 来 看 看 当 CPU 执行 一 条 读 地 址 0x0394 处 字 节 的 加 载 
指令 时 会 发 生 什么 。( 回 想 一 下 我 们 假定 CPU 读 取 1 字 节 的 字 ， 而 不 是 4 字 节 的 字 ,) 为 了 
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开始 这 种 手工 的 模拟 ， 我 们 发 现 写 下 虚拟 地 址 的 各 个 位 ， 标 识 出 我 们 会 需要 的 各 种 字段 ， 
并 确定 它们 的 十 六 进 制 值 ， 是 非常 有 帮助 的 。 当 硬件 解码 地 址 时 ， 它 也 执行 相似 的 任务 。 


TLBT TLBI 
Ox03 0x03 


= 
1 0 1 


VA = 0x03d4 0 
Ox14 


开始 时 ，MMU 从 虚拟 地 址 中 抽取 出 VPN(0x0F)， 并 且 检 查 TLB， 看 它 是 否 因 为 前 
面 的 某 个 内 存 引 用 缓存 了 PTE 0x0F 的 一 个 副本 。TLB 从 VPN 中 抽取 出 TLB 索引 (0x03) 
和 TLB 标 记 (0x3)， 组 0x3 的 第 二 个 条 目 中 有 效 匹配 ， 所 以 命中 ， 然 后 将 缓存 的 PPN 
(0x0D) 返 回 给 MMU。 

如 果 TLB 不 命中 ， 那 么 MMU 就 需要 从 主 存 中 取出 相应 的 PTE。 然 而 ， 在 这 种 情况 
中 ， 我 们 很 幸运 ，TLB 会 命中 。 现 在 ，MMU 有 了 形成 物理 地 址 所 需要 的 所 有 东西 。 它 通 
过 将 来 自 PTE 的 PPN(0x0D) 和 来 自 虚拟 地 址 的 VPOC0x14) 连 接 起 来 ， 这 就 形成 了 物理 地 
址 (0x354)。 

接 下 来 ，MMU 发 送 物理 地 址 给 缓存 ， 缓 存 从 物理 地 址 中 抽取 出 缓存 偏 移 COC0x0)、 
缓存 组 索引 CI(0x5) 以 及 缓存 标记 CT(Ox0D) 。 








Ox0d Ox05 Ox0 


| 位 位 置 |11 10 9 8 7 6 5 4 3 2 1 0 


PA=0x354 | 0 0 1 1 0 10 1 0 1 0 0 
PPN PPO 


Ox0Od Ox14 


因为 组 0x5 中 的 标记 与 CT 相 匹 配 ， 所 以 缓存 检测 到 一 个 命中 ， 读 出 在 偏 移 量 CO 处 

的 数据 字 节 (0x36) ， 并 将 它 返 回 给 MMU ， 随 后 MMU 将 它 传递 回 CPU。 
翻译 过 程 的 其 他 路 径 也 是 可 能 的 。 例 如 ， 如 果 TLB 不 命中 ， 那么 MMU 必须 从 页 表 

中 的 PTE 中 取出 PPN。 如 果 得 到 的 PTE 是 无 效 的 ， 那 么 就 产生 一 个 缺 页 ， 内 核 必须 调 入 

合适 的 页 面 ， 重 新 运行 这 条 加 载 指令 。 另 一 种 可 能 性 是 PTE 是 有 效 的 ， 但 是 所 需要 的 内 

存 块 在 缓存 中 不 命中 。 

区 练习 题 9.4 说 明 9. 6.4 节 中 的 示例 内 存 系统 是 如 何 将 一 个 虚拟 地 址 翻译 成 一 个 物理 
地 址 和 访问 缓存 的 。 对 于 给 定 的 虚拟 地 址 ， 指 明 访 问 的 TLB 条 目 、 物 理 地 址 和 返回 
的 缓存 字 节 值 。 指 出 是 否 发 生 了 TLB 不 命中 ， 是 否 发 生 了 缺 页 ， 以 及 是 否 发 生 了 组 
存 不 命中 。 如 果 是 缓存 不 命中 ， 在 “返回 的 缓存 字 节 ” 栏 中 输入 “一 ”。 如 果 有 缺 页 ， 
则 在 “PPN” 一 栏 中 输入 “一 ”， 并 且 将 C 部 分 和 D 部 分 空 着 。 
虚拟 地 址 : 0x03d7 
A. 虚拟 地 址 格式 
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B. 地 址 翻译 
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C. 物理 地 址 格式 





D. 物理 内 存 引 用 














缓存 标记 
缓存 命中 ? (是 / 否 ) 
返回 的 缓存 字 节 


9.7 案例 研究 : Intel Core i7/Linux 内 存 系 统 


我 们 以 一 个 实际 系统 的 案例 研究 来 总 结 我 们 对 虚拟 内 存 的 讨论 : 一 个 运行 Linux 的 
Intel Core i7 。 虽 然 底 层 的 Haswell 微 体 系 结构 允许 完全 的 64 位 虚拟 和 物理 地 址 空间 ， 而 
现在 的 (以 及 可 预见 的 未 来 的 )Core i7 实现 支持 48 位 (256TB) 虚 拟 地 址 空间 和 52 位 (4PB) 
物理 地 址 空间 ， 还 有 一 个 兼容 模式 ， 支 持 32 位 (4GB) 虚 拟 和 物理 地 址 空间 。 

图 9-21 给 出 了 Core i7 内 存 系统 的 重要 部 分 。 处 理 器 封装 (processor package) 包 括 四 
个 核 、 一 个 大 的 所 有 核 共享 的 L3 高 速 缓 存 ， 以 及 一 个 DDR3 内 存 控制 器 。 每 个 核 包 含 一 
个 层次 结构 的 TLB、 一 个 层次 结构 的 数据 和 指令 高 速 缓存 ， 以 及 一 组 快速 的 点 到 点 链 路 ， 
这 种 链 路 基于 QuickPath 技术 ， 是 为 了 让 一 个 核 与 其 他 核 和 外 部 W/O 桥 直接 通信 。TLB 
是 虚拟 寻 址 的 ， 是 四 路 组 相 联 的 。L1、L2 和 L3 高 速 缓 存 是 物理 寻 址 的 ， 块 大 小 为 64 字 
节 。L1 和 L2 是 8 路 组 相 联 的 ， 而 L3 是 16 路 组 相 联 的 。 页 大 小 可 以 在 启动 时 被 配置 为 
4KB 或 4MB。Linux 使 用 的 是 4KB 的 页 。 





9.7.1 Core i7 地 址 翻译 


图 9-22 总 结 了 完整 的 Core i7 地 址 翻译 过 程 ， 从 CPU 产生 虚拟 地 址 的 时 刻 一 直到 来 
自 内 存 的 数据 字 到 达 CPU。Core i7 采用 四 级 页 表层 次 结构 。 每 个 进程 有 它 自己 私有 的 页 
表层 次 结构 。 当 一 个 Linux 进程 在 运行 时 ， 虽 然 Core i7 体系 结构 允许 页 表 换 进 换 出 , 但 
是 与 已 分 配 了 的 页 相关 联 的 页 表 都 是 驻 留 在 内 存 中 的 。CR3 控制 寄存 器 指向 第 一 级 页 表 
(L1) 的 起 始 位 置 。CR3 的 值 是 每 个 进程 上 下 文 的 一 部 分 ， 每 次 上 下 文 切换 时 ，CR3 的 值 
都 会 被 恢复 。 
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图 9-21 Core i7 的 内 存 系统 


32/64 
L2、L3 和 主 存 


L1 d-cache 
(64 组 ,8 行 /组 ) 


全 人 
L1 TLB (16 组 , 4 个 条 目 / 组 ) TELL | 
6 | 0 656 


a 





页 表 


图 9-22 Core i7 地 址 翻译 的 概况 。 为 了 简化 ， 没 有 显示 i-cache、i-TLB 和 L2 统一 TLB 








图 9-23 给 出 了 第 一 级 、 第 二 级 或 第 三 级 页 表 中 条 目的 格式 。 当 P= 二 1 时 (Linux 中 就 
总 是 如 此 )， 地 址 字段 包含 一 个 40 位 物理 页 号 (PPN)， 它 指向 适当 的 页 表 的 开始 处 。 注 
意 ， 这 强加 了 一 个 要 求 ， 要 求 物理 页 表 4KB 对 齐 。 




























































63 62 5251 12 11 9 3 了 7 了 3 水 -3 0 
| xm | 未 使 用 页 表 物 理 基地 址 未 使 用 | c |Ps| [4 ]co| wusawle| 
| 0S 可 用 (磁盘 上 的 页 表 位 置 ) p=0 
描述 

P 子 页 表 在 物理 内 存 中 1)， 不 在 0) 
对 于 所 有 可 访问 页 ， 只 读 或 者 读 写 访问 权限 | 
对 于 所 有 可 访问 页 ， 用 户 或 超级 用 户 〈 内 核 ) 模式 访问 权限 
子 页 表 的 直 写 或 写 回 缓存 策略 
CD 能 /不 能 缓存 子 页 表 
A 引用 位 (由 MMU 在 读 和 写 时 设置 ， 由 软件 清除 ) 
页 大 小 为 4KB 或 4 MB 〈 只 对 第 一 层 PTE 定义 ) 
子 页 表 的 物理 基地 址 的 最 高 40 位 





能 /不 能 从 这 个 PTE 可 访问 的 所 有 页 中 取 指 令 


图 9-23 第 一 级 、 第 二 级 和 第 三 级 页 表 条 目 格式 。 每 个 条 目 引用 一 个 4KB 子 页 表 








图 9-24 给 出 了 第 四 级 页 表 中 条 目的 格式 。 当 P= 二 1， 地 址 字段 包括 一 个 40 位 PPN， 
它 指 向 物理 内 存 中 某 一 页 的 基地 址 。 这 又 强加 了 一 个 要 求 ， 要 求 物理 页 4KB 对 齐 。 
63 62 52:5] 志江] 9 0 


7 间 5 和 法 1 
oxoa| wae An eTo [nT [elloslenle| 
OS 可 用 (磁盘 上 的 页 表 位 置 ) 





: 








子 页 表 在 物理 内 存 中 (1)， 不 在 〈0) 
对 于 子 页 ， 只 读 或 者 读 写 访问 权限 


对 于 子 页， 用 户 或 超级 用 户 〈 内 核 ) 模式 访问 权限 
CD 











子 页 的 直 写 或 写 回 缓存 策略 
能 /不 能 缓存 





引用 位 (由 MMU 在 读 和 写 时 设置 ， 由 软件 清除 ) 


A 

D 修改 位 〈 由 MMU 在 读 和 写 时 设置 ， 由 软件 清除 
G 全 局 页 〈 在 任务 切换 时 ， 不 从 TLB 中 驱逐 出 去 ) 
Base addr 子 页 物理 基地 址 的 最 高 40 位 

XD 能 /不 能 从 这 个 子 页 中 取 指 令 


图 9-24 第 四 级 页 表 条 目的 格式 。 每 个 条 目 引 用 一 个 4KB 子 页 


PTE 有 三 个 权限 位 ， 控 制 对 页 的 访问 。R/W 位 确定 页 的 内 容 是 可 以 读 写 的 还 是 只 i 
的 。U/S 位 确定 是 否 能 够 在 用 户 模 式 中 访问 该 页 ， 从 而 保护 操作 系统 内 核 中 的 代码 和 数据 
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不 被 用 户 程 序 访 问 。XD( 禁 止 执行 ) 位 是 在 64 位 系统 中 引 和 的， 可 以 用 来 禁止 从 某 些 内 存 
页 取 指 令 。 这 是 一 个 重要 的 新 特性 ， 通 过 限制 只 能 执行 只 读 代 码 段 ， 使 得 操作 系统 内 核 降 
低 了 缓冲 区 溢出 攻击 的 风险 。 

当 MMU 翻译 每 一 个 虚拟 地 址 时 ， 它 还 会 更 新 另外 两 个 内 核 缺 页 处 理 程序 会 用 到 的 
位 。 每 次 访问 一 个 页 时 ，MMU 都 会 设置 A 位 ， 称 为 引用 位 (reference bit)。 内 核 可 以 用 
这 个 引用 位 来 实现 它 的 页 蔡 换 算法 。 每 次 对 一 个 页 进行 了 写 之 后 ，MMU 都 会 设置 D 位 ， 
又 称 修改 位 或 脏 位 (dirty bit)。 修 改 位 告诉 内 核 在 复制 蔡 换 页 之 前 是 否 必须 写 回 牺牲 页 。 
内 核 可 以 通过 调用 一 条 特殊 的 内 核 模 式 指 令 来 清除 引用 位 或 修改 位 。 

图 9-25 给 出 了 Core i7 MMU 如 何 使 用 四 级 的 页 表 来 将 虚拟 地 址 翻译 成 物理 地 址 。36 
位 VPN 被 划分 成 四 个 9 位 的 片 ， 每 个 片 被 用 作 到 一 个 页 表 的 偏 移 量 。CR3 寄存 器 包含 L1 
页 表 的 物理 地 址 。VPN 1 提供 到 一 个 LI PET 的 偏 移 量 ， 这 个 PTE 包含 L2 页 表 的 基地 
址 。VPN 2 提供 到 一 个 L2 PTE 的 偏 移 量 ， 以 此 类 推 。 






















9 9 9 9 12 
虚拟 地 址 
L1 PT L2 PT L3 PT 
40 页 全 局 目录 “|40 页 上 层 目录 “|40 页 中 层 目录 
CR3 
L1 PT 的 
物理 地 址 
3 到 物理 和 虚拟 
页 的 偏 移 量 












每 个 条 目 每 个 条 目 每 个 条 目 
512 GB 区 域 1 GB 区 域 2 MB 区 域 4 KB 区 域 地 址 


图 9-25 ”Core i7 页 表 翻 译 (PT: 页 表 ，PTE: 页 表 条 目 ，VPN: 虚拟 页 号 ，VPO: 虚拟 页 偏 移 ， 
PPN: 物理 页 号 ，PPO 物理 页 偏 移 量 。 图 中 还 给 出 了 这 四 级 页 表 的 Linux 名 字 ) 


| 旁 注 | 优化 地 址 翻译 

在 对 地 址 翻译 的 讨论 中 ， 我 们 描述 了 一 个 顺序 的 两 个 步骤 的 过 程 ，1)MMU 将 虚拟 
地 址 翻译 成 物理 地 址 ，2) 将 物理 地 址 传送 到 L1 高 速 缓存 。 然 而 ， 实 际 的 硬件 实现 使 用 
了 一 个 灵活 的 技巧 ， 允 许 这 些 步骤 部 分 重 登 ， 因 此 也 就 加 速 了 对 Ll 高 速 缓 存 的 访问 。 
例如 ， 页 面 大 小 为 4KB 的 Core i7 系统 上 的 一 个 虚拟 地 址 有 12 位 的 VPO， 并 且 这 些 位 
和 相应 物理 地 址 中 的 PPO 的 12 位 是 相同 的 。 因 为 八路 组 相 联 的 、 物 理 寻 址 的 Ll 高 速 
缓存 有 64 个 组 和 大 小 为 64 字 节 的 缓存 块 ， 每 个 物理 地 址 有 6 个 (log:64) 缓 存 偏 移 位 和 
6 个 (logs*64) 索 引 位 。 这 12 位 恰好 符合 虚拟 地 址 的 VPO 部 分 ， 这 绝 不 是 偶然 ! 当 CPU 
需要 翻译 一 个 虚拟 地 址 时 ， 它 就 发 送 VPN 到 MMU， 发 送 VPO 到 高 速 L1 缓存 。 当 MMU 
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向 TLB 请 求 一 个 页 表 条 目 时 ，L1 高 速 缓存 正 忙 着 利用 VPO 位 查找 相应 的 组 ， 并 读 由 
这 个 组 里 的 8 个 标记 和 相应 的 数据 字 。 当 MMU 从 TLB 得 到 PPN 时 ,缓存 局 人 人 全 
试 着 把 这 个 PPN 与 这 8 个 标记 中 的 一 个 进行 匹配 了 。 1 


9.7.2 Linux 虚拟 内 存 系统 


一 个 虚拟 内 存 系 统 要 求 硬件 和 内 核 软 件 之 间 的 紧密 协作 。 版 本 与 版 本 之 间 细 节 都 不 尽 
相同 ， 对 此 完整 的 阐释 超出 了 我 们 讨论 的 范围 。 但 是 ， 在 这 一 小 节 中 我 们 的 目标 是 对 
Linux 的 虚拟 内 存 系统 做 一 个 描述 ， 使 你 能 够 大 致 了 解 一 个 实际 的 操作 系统 是 如 何 组 织 虐 
拟 内 存 ， 以 及 如 何 处 理 缺 页 的 。 

Linux 为 每 个 进程 维护 了 一 个 单独 的 
虚拟 地 址 空间 ， 形 式 如 图 9-26 所 示 。 我 们 对 每 个 进程 
已 经 多 次 看 到 过 这 幅 图 了 ， 包 括 它 那 些 熟 ”都 不 相同 





与 进程 相关 的 数据 结构 
(例如 ， 页 表 、task 和 
mm 结构 ， 内 核 栈 ) 


















悉 的 代码 、 数 据 、 堆 、 共 享 库 以 及 栈 段 。 ey 
既然 我 们 理解 了 地 址 翻译 ， 就 能 够 填 人 更 。 ;信息 
多 的 关于 内 核 虚 拟 内 存 的 细节 了 ， 这 部 分 ”都 -- 样 
te 
内 核 虚 拟 内 存 包含 内 核 中 的 代码 和 数 用 户 本 
据 结构 。 内 核 虚拟 内 存 的 某 些 区 域 被 映射 
到 所 有 进程 共享 的 物理 页 面 。 例 如 ， 每 个 
进程 共享 内 核 的 代码 和 全 局 数据 结构 。 有 
趣 的 是 ，Linux 也 将 一 组 连续 的 虚拟 页 面 和 
(大 小 等 于 系统 中 DRAM 的 总 量 ) 映 射 到 ed 一 内 存 
相应 的 一 组 连续 的 物理 页 面 。 这 就 为 内 术 
提供 了 一 种 便利 的 方法 来 访问 物理 内 存 中 
任何 特定 的 位 置 ， 例 如 ， 当 它 需 要 访问 页 
表 ， 或 在 一 些 设备 上 执行 内 存 映射 的 IO 0x40000000 一 i 
操作 ， 而 这 些 设备 被 映射 到 特定 的 物理 内 0 
存 位 置 时 。 图 9-26 一 个 Linux 进程 的 虚拟 内 存 


内 核 虚 拟 内 存 的 其 他 区 域 包含 每 个 进程 都 不 相同 的 数据 。 比 如 说 ， 页 表 、 内 核 在 进程 
的 上 下 文中 执行 代码 时 使 用 的 栈 ， 以 及 记录 虚拟 地 址 空间 当前 组 织 的 各 种 数据 结构 。 

1. Linux 虚拟 内 存 区 域 

Linux 将 虚拟 内 存 组 织 成 一 些 区 域 ( 也 叫做 段 ) 的 集合 。 一 个 区 域 Carea) 就 是 已 经 存在 
着 的 (已 分 配 的 ) 虚 拟 内 存 的 连续 片 (chunk)， 这 些 页 是 以 某 种 方式 相关 联 的 。 例 如 ， 代 码 
段 、 数 据 段 、 堆 、 共 享 库 段 ， 以 及 用 户 栈 都 是 不 同 的 区 域 。 每 个 存在 的 虚拟 页 面 都 保存 在 
某 个 区 域 中 ， 而 不 属于 某 个 区 域 的 虚拟 页 是 不 存在 的 ， 并 且 不 能 被 进程 引用 。 区 域 的 概念 
很 重要 ， 因 为 它 允 许 虚拟 地 址 空间 有 间隙 。 内 核 不 用 记录 那些 不 存在 的 虚拟 页 ， 而 这 样 的 
页 也 不 占用 内 存 、 磁 盘 或 者 内 核 本 身 中 的 任何 额外 资源 。 

图 9-27 强调 了 记录 一 个 进程 中 虚拟 内 存 区 域 的 内 核 数据 结构 。 内 核 为 系统 中 的 每 个 
进程 维护 一 个 单独 的 任务 结构 ( 源 代码 中 的 task_struct)。 任 务 结构 中 的 元 素 包 含 或 者 指 
向 内 核 运 行 该 进程 所 需要 的 所 有 信息 (例如 ，PID、 指 向 用 户 栈 的 指针 、 可 执行 目标 文件 的 
名 字 ， 以 及 程序 计数 器 ) 。 
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进程 虚拟 内 存 









vm_area_struct 





task struct mm_struct 









图 9-27 Linux 是 如 何 组 织 虚拟 内 存 的 


任务 结构 中 的 一 个 条 目 指向 mm_struct， 它 描述 了 虚拟 内 存 的 当前 状态 。 我 们 感 兴趣 的 
两 个 字段 是 pgd 和 mmap， 其 中 pga 指向 第 一 级 页 表 ( 页 全 局 目录 ) 的 基 址 ， 而 mmap 指向 一 个 
vm area_structs( 区 域 结构 ) 的 链表 ， 其 中 每 个 vm_area_structs 都 描述 了 当前 虚拟 地 址 空 
间 的 一 个 区 域 。 当 内 核 运行 这 个 进程 时 ， 就 将 pgd 存放 在 CR3 控制 寄存 器 中 。 

为 了 我 们 的 目的 ， 一 个 具体 区 域 的 区 域 结构 包含 下 面 的 字段 : 

e vm_start: 指向 这 个 区 域 的 起 始 处 。 

-e vm _end: 指向 这 个 区 域 的 结束 处 。 

e vm_prot: 描述 这 个 区 域内 包含 的 所 有 页 的 读 写 许可 权限 。 

e vm flags: 描述 这 个 区 域内 的 页 面 是 与 其 他 进程 共享 的 ， 还 是 这 个 进程 私有 的 (还 

描述 了 其 他 一 些 信息 )。 

e vm_next: 指向 链表 中 下 一 个 区 域 结构 。 

2. Linux 缺 页 异常 处 理 

假设 MMU 在 试图 翻译 某 个 虚拟 地 址 A 时 ， 触 发 了 一 个 缺 页 。 这 个 异常 导致 控制 转 
移 到 内 核 的 缺 页 处 理 程序 ， 处 理 程 序 随后 就 执行 下 面 的 步骤 : 

1) 虚拟 地 址 A 是 合法 的 吗 ? 换 句 话说 ，A 在 某 个 区 域 结构 定义 的 区 域内 吗 ? 为 了 回 
答 这 个 问题 ， 缺 页 处 理 程序 搜索 区 域 结构 的 链表 ， 把 A 和 每 个 区 域 结构 中 的 vm_start 和 
vm end 做 比较 。 如 果 这 个 指令 是 不 合法 的 ， 那 么 缺 页 处 理 程序 就 触发 一 个 段 错 误 ， 从 而 
终止 这 个 进程 。 这 个 情况 在 图 9-28 中 标识 为 “1”。 

因为 一 个 进程 可 以 创建 任意 数量 的 新 虚拟 内 存 区 域 (使 用 在 下 一 节 中 描述 的 mmap 也 
数 )， 所 以 顺序 搜索 区 域 结构 的 链表 花 销 可 能 会 很 大 。 因 此 在 实际 中 ，Linux 使 用 某 些 我 
们 没有 显示 出 来 的 字段 ，Linux 在 链表 中 构建 了 一 棵 树 ， 并 在 这 棵 树 上 进行 查找 。 

2) 试图 进行 的 内 存 访问 是 否 合法 ? 换 句 话说 ， 进 程 是 否 有 读 、 写 或 者 执行 这 个 区 域 
内 页 面 的 权限 ? 例如 ， 这 个 缺 页 是 不 是 由 一 条 试图 对 这 个 代码 段 里 的 只 读 页 面 进行 写 操作 
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的 存储 指令 造成 的 ? 这 个 缺 页 是 不 是 因为 一 个 运行 在 用 户 模式 中 的 进程 试图 从 内 核 虚 拟 内 
存 中 读 取 字 造成 的 ? 如 果 试 图 进行 的 访问 是 不 合法 的 ， 那 么 缺 页 处 理 程序 会 触发 一 个 保护 
异常 ， 从 而 终止 这 个 进程 。 这 种 情况 在 图 9-28 中 标识 为 “2”。 

3) 此 刻 ， 内 核 知道 了 这 个 缺 页 是 由 于 对 合法 的 虚拟 地 址 进行 合法 的 操作 造成 的 。 它 是 
这 样 来 处 理 这 个 缺 页 的 : 选择 一 个 牺牲 页 面 ， 如 果 这 个 牺牲 页 面 被 修改 过 ， 那 么 就 将 它 交换 
出 去 ， 换 和 人 新 的 页 面 并 更 新 页 表 。 当 缺 页 处 理 程序 返回 时 ，CPU 重新 启动 引起 缺 页 的 指令 ， 这 
条 指令 将 再 次 发 送 A 到 MMU。 这 次 ，MMU 就 能 正常 地 翻译 A， 而 不 会 再 产生 缺 页 中 断 了 。 

进程 虚拟 内 存 


vm_area_struct 





段 错误 ; 
GD 访问 一 个 不 存在 的 页 面 








保护 异常 : 
例如 ， 违 反 许可 ， 
写 一 个 只 读 的 页 面 


二 二 一 一 





0 
图 9-28 Linux 缺 页 处 理 


9.8 内 存 映 射 


Linux 通过 将 一 个 虚拟 内 存 区 域 与 一 个 磁盘 上 的 对 象 (object) 关 联 起 来 ， 以 初始 化 这 
个 虚拟 内 存 区 域 的 内 容 ， 这 个 过 程 称 为 内 存 映 射 (memory mapping)。 虚 拟 内 存 区 域 可 以 
映射 到 两 种 类 型 的 对 象 中 的 一 种 : 

1) Linux 文件 系统 中 的 普通 文件 : 一 个 区 域 可 以 映射 到 一 个 普通 磁盘 文件 的 连续 部 
分 ， 例 如 一 个 可 执行 目标 文件 。 文 件 区 (section) 被 分 成 页 大 小 的 片 ， 每 一 片 包含 一 个 虚拟 
页 面 的 初始 内 容 。 因 为 按 需 进行 页 面 调度 ， 所 以 这 些 虚拟 页 面 没 有 实际 交换 进入 物理 内 
存 ， 直 到 CPU 第 一 次 引用 到 页 面 ( 即 发 射 一 个 虚拟 地 址 ， 落 在 地 址 空间 这 个 页 面 的 范围 之 
内 )。 如 果 区 域 比 文件 区 要 大 ， 那 么 就 用 零 来 填充 这 个 区 域 的 余下 部 分 。 

2) 匿名 文件 : 一 个 区 域 也 可 以 映射 到 一 个 匿名 文件 ， 匿 名 文件 是 由 内 核 创 建 的 , 包 
含 的 全 是 二 进 制 零 。CPU 第 一 次 引用 这 样 一 个 区 域内 的 虚拟 页 面 时 ， 内 核 就 在 物理 内 存 
中 找到 一 个 合适 的 牺牲 页 面 ， 如 果 该 页 面 被 修改 过 ， 就 将 这 个 页 面 换 出 来 ， 用 二 进 制 零 覆 
盖 牺 牲 页 面 并 更 新 页 表 ， 将 这 个 页 面 标记 为 是 驻 留 在 内 存 中 的 。 注 意 在 磁盘 和 内 存 之 间 并 
没有 实际 的 数据 传送 。 因 为 这 个 原因 ， 了 映射 到 匿名 文件 的 区 域 中 的 页 面 有 时 也 叫做 请 求 二 
进 制 堆 的 页 (demand-zero page) 。 

无 论 在 哪 种 情况 中 ， 一旦 一 个 虚拟 页 面 被 初始 化 了 ， 它 就 在 一 个 由 内 核 维 护 的 专门 的 
交换 文件 (swap file) 之 间 换 来 换 去 。 交 换文 件 也 叫做 交换 空间 (swap space) 或 者 交换 区 域 
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(swap area) 。 需 要 意识 到 的 很 重要 的 一 点 是 ， 在 任何 时 刻 ， 交 换 空间 都 限制 着 当前 运行 着 
的 进程 能 够 分 配 的 虚拟 页 面 的 总 数 。 


9.8. 1 再 看 共享 对 象 


内 存 映 射 的 概念 来 源 于 一 个 聪明 的 发 现 : 如 果 虚 拟 内 存 系 统 可 以 集成 到 传统 的 文件 系 
统 中 ， 那 么 就 能 提供 一 种 简单 而 高 效 的 把 程序 和 数据 加 载 到 内 存 中 的 方法 。 

正如 我 们 已 经 看 到 的 ， 进 程 这 一 抽象 能 够 为 每 个 进程 提供 自己 私有 的 虚拟 地 址 空间 ， 
可 以 免 受 其 他 进程 的 错误 读 写 。 不 过 ， 许 多 进程 有 同样 的 只 读 代 码 区 域 。 例 如 ， 每 个 运行 
Linux shell 程序 bash 的 进程 都 有 相同 的 代码 区 域 。 而 且 ， 许 多 程序 需要 访问 只 读 运 行 时 
库 代码 的 相同 副本 。 例 如 ， 每 个 C 程序 都 需要 来 自 标准 C 库 的 诸如 printf 这 样 的 函数 。 
那么 ， 如 果 每 个 进程 都 在 物理 内 存 中 保持 这 些 常用 代码 的 副本 ， 那 就 是 极端 的 浪费 了 。 幸 
运 的 是 ， 内 存 映射 给 我 们 提供 了 一 种 清晰 的 机 制 ， 用 来 控制 多 个 进程 如 何 共享 对 象 。 

一 个 对 象 可 以 被 映射 到 虚拟 内 存 的 一 个 区 域 ， 要 么 作为 共享 对 象 ， 要 人 么 作为 私有 对 
象 。 如 果 一 个 进程 将 一 个 共享 对 象 映射 到 它 的 虚拟 地 址 空间 的 一 个 区 域内 ， 那 么 这 个 进程 
对 这 个 区 域 的 任何 写 操作 ， 对 于 那些 也 把 这 个 共享 对 象 映射 到 它们 虚拟 内 存 的 其 他 进程 而 
言 ， 也 是 可 见 的 。 而 且 ， 这 些 变化 也 会 反映 在 磁盘 上 的 原始 对 象 中 。 

另 一 方面 ， 对 于 一 个 映射 到 私有 对 象 的 区 域 做 的 改变 ， 对 于 其 他 进程 来 说 是 不 可 见 
的 ， 并 且 进 程 对 这 个 区 域 所 做 的 任何 写 操 作 都 不 会 反映 在 磁盘 上 的 对 象 中 。 一 个 映射 到 共 
享 对 象 的 虚拟 内 存 区 域 叫做 共享 区 域 。 类 伏地 ， 也 有 私有 区 域 。 

假设 进程 1 将 一 个 共享 对 象 映射 到 它 的 虚拟 内 存 的 一 个 区 域 中 ， 如 图 9-29a 所 示 。 现 
在 假设 进程 2 将 同一 个 共享 对 象 映射 到 它 的 地 址 空间 (并 不 一 定 要 和 进程 1 在 相同 的 虚拟 
地 址 处 ， 如 图 9-29b 所 示 ) 。 


进程 1 的 物理 ”- 进程 2 的 进程 1 的 物理 进程 2 的 
虚拟 内 存 内 存 虚拟 内 存 虚拟 内 存 内 存 虚拟 内 存 


共享 对 象 共享 对 象 
a ) 进程 1 映射 了 共享 对 象 之 后 b ) 进程 2 映射 了 同一 个 共享 对 象 之 后 


图 9-29 一 个 共享 对 象 (注意 ， 物 理 页 面 不 一 定 是 连续 的 ) 


因为 每 个 对 象 都 有 一 个 唯一 的 文件 名 ， 内 核 可 以 迅速 地 判定 进程 1 已 经 映射 了 这 个 对 
象 ， 而 且 可 以 使 进程 2 中 的 页 表 条 目 指向 相应 的 物理 页 面 。 关 键 点 在 于 即使 对 象 被 映射 到 
了 多 个 共享 区 域 ， 物 理 内 存 中 也 只 需要 存放 共享 对 象 的 一 个 副本 。 为 了 方便 ， 我 们 将 物理 
页 面 显示 为 连续 的 ， 但 是 在 一 般 情 况 下 当然 不 是 这 样 的 。 

私有 对 象 使 用 一 种 叫做 写 时 复制 (copy-on-write) 的 巧妙 技术 被 映射 到 虚拟 内 存 中 。 一 
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私有 对 象 开始 生命 周期 的 方式 基本 上 与 共享 对 象 的 一 样 ， 在 物理 内 存 中 只 保存 有 私有 对 象 的 
一 份 副本 。 比 如 ， 图 9-30a 展示 了 一 种 情况 ， 其 中 两 个 进程 将 一 个 私有 对 象 映射 到 它们 虚拟 内 
存 的 不 同 区 域 ,， 但 是 共享 这 个 对 象 同一 个 物理 副本 。 对 于 每 个 映射 私有 对 象 的 进程 ， 相 应 私有 
区 域 的 页 表 条 目 都 被 标记 为 只 读 ， 并 且 区 域 结构 被 标记 为 私有 的 写 时 复制 。 只 要 没有 进程 试图 
写 它 自己 的 私有 区 域 ， 它 们 就 可 以 继续 共享 物理 内 存 中 对 象 的 一 个 单独 副本 。 然 而 ， 只 要 有 一 
个 进程 试图 写 私有 区 域内 的 某 个 页 面 ， 那 么 这 个 写 操作 就 会 触发 一 个 保护 故障 。 

当 故 障 处 理 程序 注意 到 保护 异常 是 由 于 进程 试图 写 私 有 的 写 时 复制 区 域 中 的 一 个 页 面 
而 引起 的 ， 它 就 会 在 物理 内 存 中 创建 这 个 页 面 的 一 个 新 副本 ， 更 新 页 表 条 目 指向 这 个 新 的 
副本 ， 然 后 恢复 这 个 页 面 的 可 写 权限 ， 如 图 9-30b 所 示 。 当 故障 处 理 程序 返回 时 ，CPU 重 
新 执行 这 个 写 操 作 ， 现 在 在 新 创建 的 页 面 上 这 个 写 操 作 就 可 以 正常 执行 了 。 
进程 1 的 物理 进程 2 的 进程 1 的 物理 进程 2 的 
虚拟 内 存 内 存 虚拟 内 存 虚拟 内 存 内 存 虚拟 内 存 


写 私 有 的 写 
时 复制 的 页 





私有 的 写 时 复制 对 象 私有 的 写 时 复制 对 象 
a ) 两 个 进程 都 映射 了 私有 的 写 时 复制 对 象 之 后 b ) 进程 2 写 了 私有 区 域 中 的 一 个 页 之 后 


图 9-30 一 个 私有 的 写 时 复制 对 象 


通过 延迟 私有 对 象 中 的 副本 直到 最 后 可 能 的 时 刻 ， 写 时 复制 最 充分 地 使 用 了 稀有 的 物 
理 内 存 。 


9. 8.2 再 看 fork 函数 


既然 我 们 理解 了 虚拟 内 存 和 内 存 映 射 ， 那么 我 们 可 以 清晰 地 知道 fork 函数 是 如 何 创 
建 一 个 带 有 自己 独立 虚拟 地 址 空间 的 新 进程 的 。 

当 fork 函数 被 当前 进程 调用 时 ， 内 核 为 新 进程 创建 各 种 数据 结构 ， 并 分 配给 它 一 个 
唯一 的 PID。 为 了 给 这 个 新 进程 创建 虚拟 内 存 ， 它 创建 了 当前 进程 的 mm_struct、 区 域 结 
构 和 页 表 的 原样 副本 。 它 将 两 个 进程 中 的 每 个 页 面 都 标记 为 只 读 ， 并 将 两 个 进程 中 的 每 个 
区 域 结构 都 标记 为 私有 的 写 时 复制 。 

当 fork 在 新 进程 中 返回 时 ， 新 进程 现在 的 虚拟 内 存 刚好 和 调用 fork 时 存在 的 虚拟 
内 存 相 同 。 当 这 两 个 进程 中 的 任 一 个 后 来 进行 写 操作 时 ， 写 时 复制 机 制 就 会 创建 新 页 面 ， 
因此 ， 也 就 为 每 个 进程 保持 了 私有 地 址 空间 的 抽象 概念 。 


9. 8.3 再 看 execve 函数 


虚拟 内 存 和 内 存 映射 在 将 程序 加 载 到 内 存 的 过 程 中 也 扮演 着 关键 的 角色 。 既 然 已 经 理 
解 了 这 些 概念 ， 我 们 就 能 够 理解 execve 函数 实际 上 是 如 何 加 载 和 执行 程序 的 。 假 设 运行 


第 9 章 讶 拟 内 站 585 








在 当前 进程 中 的 程序 执行 了 如 下 的 execve 调用 : 
execve("a.out", NULL, NULL); 


正如 在 第 8 章 中 学 到 的 ，execve 函 数 在 当前 进程 中 加 载 并 运行 包含 在 可 执行 目标 文件 a.out 
中 的 程序 ， 用 a.out 程序 有 效 地 替代 了 当前 程序 。 加 载 并 运行 a.out 需要 以 下 几 个 步骤 : 
@ 删除 已 存在 的 用 户 区 域 。 删 除 当 前 进程 虚拟 地 址 的 用 户 部 分 中 的 已 存在 的 区 域 结构 。 
e@ 映射 私有 区 域 。 为 新 程序 的 代码 、 数 据 、bss 和 栈 区 域 创建 新 的 区 域 结构 。 所 有 这 些 
新 的 区 域 都 是 私有 的 、 写 时 复制 的 。 代 码 和 数据 区 域 被 映射 为 a.out 文件 中 的 .text 
和 .data 区 。bss 区 域 是 请 求 二 进 制 零 的 ， 映 射 到 匿名 文件 ， 其 大 小 包含 在 a.out 中 。 栈 
和 堆 区 域 也 是 请 求 二 进 制 零 的 ， 初 始 长 度 为 零 。 图 9-31 概括 了 私有 区 域 的 不 同 映射 。 
@ 映射 共享 区 域 。 如 果 a.out 程序 与 共享 对 象 (或 目标 ) 链 接 ， 比 如 标准 C 库 libc. 
so， 那 么 这 些 对 象 都 是 动态 链接 到 这 个 程序 的 ， 然 后 再 映射 到 用 户 虚 拟 地 址 空间 中 
的 共享 区 域内 。 
@ 设置 程序 计数 器 (PC) 。execve 做 的 最 后 一 件 事情 就 是 设置 当前 进程 上 下 文中 的 程 
序 计数 器 ， 使 之 指向 代码 区 域 的 人 口 点 。 
下 一 次 调度 这 个 进程 时 ， 它 将 从 这 个 人 口 点 开始 执行 。Linux 将 根据 需要 换 人 代码 和 
数据 页 面 。 


}》 有 的, 请 法 的 









| 共享 的 ,文件 提供 的 


| 请 求 二 进 制 零 的 
代码 ( .text ) 
0 BR 

图 9-31 ”加载 器 是 如 何 映 射 用 户 地 址 空间 的 区 域 的 


9. 8.4 使 用 mmap 函数 的 用 户 级 内 存 映 射 
Linux 进程 可 以 使 用 mmap 函数 来 创建 新 的 虚拟 内 存 区 域 ， 并 将 对 象 映 射 到 这 些 区 域 中 。 





上 私有 的 ， 请 求 二 进 制 零 的 











| 私有 的 ， 文 件 提供 的 











#include <unistd.h> 
#include <sys/mman.h> 


void *mmap(void *start, size_t length, int prot, int flags, 
int fd, off_t offset); 
返回 : 车 成 功 时 则 为 指向 映射 区 域 的 指针 ， 若 出 错 则 为 MAP_FAILED( 一 1)。 
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mmap 消 数 要 求 内 核 创建 一 个 新 的 虚拟 内 存 区 域 ， 最 好 是 从 地 址 start 开始 的 一 个 区 
域 ， 并 将 文件 描述 符 fd 指定 的 对 象 的 一 个 连续 的 片 (chunk) 映 射 到 这 个 新 的 区 域 。 连 续 的 
对 象 片 大 小 为 length 字 节 ， 从 距 文 件 开始 处 偏 移 量 为 offset 字 节 的 地 方 开 始 。start 
地 址 仅仅 是 一 个 暗示 ， 通 常 被 定义 为 NULL。 为 了 我 们 的 目的 ， 我们 总 是 假设 起 始 地 址 为 
NULL。 图 9-32 描述 了 这 些 参数 的 意义 。 


length ( 字 节 ) 


局 一 一 start 
length ( 字 节 ) | a (或 由 内 核 选 
2 定 的 地 址 ) 
offset i 2 
( 字 节 ) 


0 0 
文件 描述 符 fa 指定 进程 虚拟 内 存 
的 磁盘 文件 


图 9-32 mmap 参数 的 可 视 化 解释 
参数 prot 包含 描述 新 映射 的 虚拟 内 存 区 域 的 访问 权限 位 ( 即 在 相应 区 域 结构 中 的 vm_ 


prot 位 )。 

e PROT_EXEC: 这 个 区 域内 的 页 面 由 可 以 被 CPU 执行 的 指令 组 成 。 

e PROT_READ: 这 个 区 域内 的 页 面 可 读 。 

e PROT_WRITE: 这 个 区 域内 的 页 面 可 写 。 

e PROT_NONE: 这 个 区 域内 的 页 面 不 能 被 访问 。 

参数 flags 由 描述 被 映射 对 象 类 型 的 位 组 成 。 如 果 设 置 了 MAP_ANON 标记 位 ， 那 
么 被 映射 的 对 象 就 是 一 个 匿名 对 象 ， 而 相应 的 虚拟 页 面 是 请 求 二 进 制 零 的 。MAP_PRI- 
VATE 表示 被 映射 的 对 象 是 一 个 私有 的 、 写 时 复制 的 对 象 ， 而 MAP_SHARED 表示 是 一 
个 共享 对 象 。 例 如 


bufp = Mmap(NULL, size, PROT_READ, MAP_PRIVATE|MAP_ANON, 0, 0); 


让 内 核 创建 一 个 新 的 包含 size 字 节 的 只 读 、 和 私有、 请求 二 进 制 零 的 虚拟 内 存 区 域 。 
如 果 调 用 成 功 ， 那 么 bufp 包含 新 区 域 的 地 址 。 
munmap 函数 删除 虚拟 内 存 的 区 域 : 








#include <unistd.h> 
#include <sys/mman.h> 


int munmap(void *start, size_t length); 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 








munmap 函数 删除 从 虚拟 地 址 start 开始 的 ， 由 接 下 来 length 字 节 组 成 的 区 域 。 接 
下 来 对 已 删除 区 域 的 引用 会 导致 段 错误 。 
BB 练习 题 9.5 编写 一 个 C 程序 mmapcopy.c， 使 用 mmap 将 一 个 任意 大 小 的 磁 副 文件 复 
制 到 stdout。 输 入 文件 的 名 字 必 须 作 为 一 个 命令 行 参数 来 传递 。 
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9.9 动态 内 存 分 配 


虽然 可 以 使 用 低级 的 mmap 和 munmap 函数 来 创建 和 删除 虚拟 内 存 的 区 域 ， 但 是 C 程 
序 员 还 是 会 觉得 当 运 行 时 需要 额外 虚拟 内 存 时 ， 用 动态 内 存 分 配器 (dynamic memory allo- 
cator) 更 方便 ， 也 有 更 好 的 可 移植 性 。 

动态 内 存 分 配器 维护 着 一 个 进程 的 虚拟 内 存 区 
域 ， 称 为 堆 (heap)( 见 图 9-33)。 系 统 之 间 细 节 不 同 ， 
但 是 不 失 通 用 性 ， 假 设 堆 是 一 个 请 求 二 进 制 零 的 区 
域 ， 它 紧 接 在 未 初始 化 的 数据 区 域 后 开始 ， 并 向 上 生 
长 (向 更 高 的 地 址 )。 对 于 每 个 进程 ， 内 核 维护 着 一 个 
变量 prk( 读 做 “break”)， 它 指向 堆 的 顶部 。 

分 配器 将 堆 视 为 一 组 不 同 大 小 的 块 (block) 的 集合 
来 维护 。 每 个 块 就 是 一 个 连续 的 虚拟 内 存 片 (chunk)， 
要 人 么 是 已 分 配 的 ， 要 么 是 空闲 的 。 已 分 配 的 块 显 式 地 
保留 为 供应 用 程序 使 用 。 空 闲 块 可 用 来 分 配 。 空 闲 块 
保持 空闲 ， 直 到 它 显 式 地 被 应 用 所 分 配 。 一 个 已 分 配 未 初始 化 的 数据 ( .bss ) 
的 块 保持 已 分 配 状态 ， 直 到 它 被 释放 ， 这 种 释放 要 么 | 已 初始 化 的 数据 ( .data) 





共享 库 的 内 存 映 射 区 域 






一 < 一 堆 顶 
(brk 指针 ) 





是 应 用 程序 显 式 执行 的 ， 要 么 是 内 存 分 配器 自身 隐 式 代码 (text) 

执行 的 9 并 Se 
分 配器 有 两 种 基本 风格 。 两 种 风格 都 要 求 应 用 显 0 

式 地 分 配 块 。 它 们 的 不 同 之 处 在 于 由 哪个 实体 来 负责 图 9-33 堆 

释放 已 分 配 的 块 。 


@ 显 式 分 配器 (explicit allocator)， 要 求 应 用 显 式 地 释放 任何 已 分 配 的 块 。 例 如 ，C 标 
准 库 提供 一 种 叫做 malloc 程序 包 的 显 式 分 配器 。C 程序 通过 调用 malloc 函数 来 

.分 配 一 个 块 ， 并 通过 调用 free 函数 来 释放 一 个 块 。C++ 中 的 new 和 delete 操作 
符 与 C 中 的 malloc 和 free 相当 。 

@ 隐 式 分 配器 (implicit allocator) ， 另 一 方面 ， 要 求 分 配器 检测 一 个 已 分 配 块 何 时 不 再 
被 程序 所 使 用 ， 那 么 就 释放 这 个 块 。 隐 式 分 配器 也 叫做 垃圾 收集 器 (garbage collec- 
tor)， 而 自动 释放 未 使 用 的 已 分 配 的 块 的 过 程 叫 做 垃圾 收集 (garbage collection ) 。 
例如 ， 诸 如 Lisp、ML 以 及 Java 之 类 的 高 级 语言 就 依赖 垃圾 收集 来 释放 已 分 配 
的 块 。 

本 节 剩 下 的 部 分 讨论 的 是 显 式 分 配器 的 设计 和 实现 。 我 们 将 在 9. 10 节 中 讨论 隐 式 分 
配器 。 为 了 更 具体 ， 我 们 的 讨论 集中 于 管理 堆 内 存 的 分 配器 。 然 而 ， 应 该 明白 内 存 分 配 是 
一 个 普遍 的 概念 ， 可 以 出 现在 各 种 上 下 文中 。 例 如 ， 图 形 处 理 密集 的 应 用 程序 就 经 常 使 用 
标准 分 配器 来 要 求 获得 一 大 块 虚拟 内 存 ， 然 后 使 用 与 应 用 相关 的 分 配器 来 管理 内 存 ， 在 该 
块 中 创建 和 销 筑 图 形 的 节点 。 


9.9.1 malloc 和 free 函数 


C 标准 库 提 供 了 一 个 称 为 malloc 程序 包 的 显 式 分 配器 。 程 序 通过 调用 malloc 函数 
来 从 堆 中 分 配 块 。 
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#include <stdlib.h> 


void *malloc(size_t size); 
返回 : 若 成 功 则 为 已 分 配 块 的 指针 ， 若 出 错 则 为 NULL。 








malloc 函数 返回 一 个 指针 ， 指 向 大 小 为 至 少 size 字 节 的 内 存 块 ， 这 个 块 会 为 可 能 包 
含 在 这 个 块 内 的 任何 数据 对 象 类 型 做 对 齐 。 实 际 中 ， 对 齐 依赖 于 编译 代码 在 32 位 模式 
(gcc -m32) 还 是 64 位 模式 (默认 的 ) 中 运行 。 在 32 位 模式 中 ，malloc 返回 的 块 的 地 址 总 
是 8 的 倍数 。 在 64 位 模式 中 ， 该 地 址 总 是 16 的 倍数 。 


一 个 字 有 多 大 过 
回想 一 2 然而 ， 
本 节 中 ， 我 们 会 假设 字 是 4 字 节 的 对 象 ， 而 双 字 是 8 字 节 的 对 象 ， 这 和 传统 术语 是 一 


如 果 malloc 遇 到 问题 (例如 ， 程 序 要 求 的 内 存 块 比 可 用 的 虚拟 内 存 还 要 大 )， 那 么 它 
就 返回 NULL， 并 设置 errno。malloc 不 初始 化 它 返 回 的 内 存 。 那 些 想 要 已 初始 化 的 动 
态 内 存 的 应 用 程序 可 以 使 用 calloc，calloc 是 一 个 基于 malloc 的 瘦 包 装 函 数 ， 它 将 分 
配 的 内 存 初始 化 为 零 。 想 要 改变 一 个 以 前 已 分 配 块 的 大 小 ， 可 以 使 用 realloc 函数 。 

动态 内 存 分 配器 ， 例 如 malloc， 可 以 通过 使 用 mmap 和 munmap 函数 ， 显 式 地 分 配 和 
释放 堆 内 存 ， 或 者 还 可 以 使 用 sbrk 函数 ; 


#include <unistd.h> 


void *sbrk(intptr_t incr); 


返回 : 若 成 功 则 为 旧 的 brk 指针 ， 若 出 错 则 为 一 1。 





sbrk 了 艺 数 通过 将 内 核 的 brk 指针 增加 incr 来 扩展 和 收缩 堆 。 如 果 成 功 ， 它 就 返回 
prk 的 旧 值 ， 否 则 ， 它 就 返回 一 1， 并 将 errno 设置 为 ENOMEM。 如 果 incr 为 零 ， 那 么 
sbrk 就 返回 brk 的 当前 值 。 用 一 个 为 负 的 incr 来 调用 sbrk 是 合法 的 ， 而 且 很 巧妙 ， 因 
为 返回 值 Cbrk 的 旧 值 ) 指 向 距 新 堆 顶 向 上 abs(incr) 字 节 处 。 

程序 是 通过 调用 free 函数 来 释放 已 分 配 的 堆 块 。 





#include <stdlib.h> 


void free(void *ptr); 
返回 : 无 。 








ptr 参数 必须 指向 一 个 从 malloc、calloc 或 者 realloc 获得 的 已 分 配 块 的 起 始 位 
置 。 如 果 不 是 ， 那 么 free 的 行为 就 是 未 定义 的 。 更 糟 的 是 ， 既 然 它 什么 都 不 返回 ，free 
就 不 会 告诉 应 用 出 现 了 错误 。 就 像 我 们 将 在 9. 11 节 里 看 到 的 ， 这 会 产生 一 些 令 人 迷惑 的 
运行 时 错误 。 

图 9-34 展示 了 一 个 malloc 和 free 的 实现 是 如 何 管理 一 个 C 程序 的 16 字 的 (非常 ) 小 
的 堆 的 。 每 个 方 框 代 表 了 一 个 4 字 节 的 字 。 粗 线 标 出 的 和 矩形 对 应 于 已 分 配 块 (有 阴影 的 ) 和 
空闲 块 ( 无 阴影 的 ) 。 初 始 时 ， 堆 是 由 一 个 大 小 为 16 个 字 的 、 双 字 对 齐 的 、 空 闲 块 组 成 的 。 
(本 节 中 ， 我 们 假设 分 配器 返回 的 块 是 8 字 节 双 字 边界 对 齐 的 。) 
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e 图 9-34a: 程序 请 求 一 个 4 字 的 块 。malloc 的 响应 是 : 从 空闲 块 的 前 部 切 出 一 个 4 
字 的 块 ， 并 返回 一 个 指向 这 个 块 的 第 一 字 的 指针 。 


e 图 9-34b: 程序 请 求 一 个 5 字 的 块 。 
malloc 的 响应 是 : 从 空闲 块 的 前 部 分 
配 一 个 6 字 的 块 。 在 本 例 中 ，malloc 
在 块 里 填充 了 一 个 额外 的 字 ， 是 为 了 
保持 空闲 块 是 双 字 边界 对 齐 的 。 

e 图 9-34c: 程序 请 求 一 个 6 字 的 块 ， 而 
malloc 就 从 空闲 块 的 前 部 切 出 一 个 6 
字 的 块 。 

e 图 9-34d: 程序 释放 在 图 9-34b 中 分 配 
的 那个 6 字 的 块 。 注 意 ， 在 调用 free 
返回 之 后 ， 指 针 p2 仍然 指向 被 释放 了 
的 块 。 应 用 有 责任 在 它 被 一 个 新 的 
malloc 调用 重新 初始 化 之 前 ， 不 再 使 
用 p2。 

e 图 9-34e: 程序 请 求 一 个 2 字 的 块 。 在 
这 种 情况 中 ，malloc 分 配 在 前 一 步 中 
被 释放 了 的 块 的 一 部 分 ， 并 返回 一 个 
指向 这 个 新 块 的 指针 。 


9.9.2 为 什么 要 使 用 动态 内 存 分 配 


程序 使 用 动态 内 存 分 配 的 最 重要 的 原因 


是 经 常 直 到 程序 实际 运行 时 ， 才 知道 某 些 数 
据 结构 的 大 小 。 例 如 ， 假 设 要 求 我 们 编写 一 个 C 程序 ， 它 读 一 个 ”个 ASCII 码 整数 的 链 
表 ， 每 一 行 一 个 整数 ， 从 stdin 到 一 个 C 数 组 。 输入 是 由 整数 n 和 接 下 来 要 读 和 存储 到 
数组 中 的 个 整数 组 成 的 。 最 简单 的 方法 就 是 静态 地 定义 这 个 数组 ， 它 的 最 大 数组 大 小 是 
硬 编码 的 : 


#include "csapp.h" 
#define MAXN 15213 


int array [MAXN] ; 


int main() 
{ 


nb 王位 


scanf ("%d", &n); 
if (n > MAXN) 


for (i = 0; i < n; i++) 
scanf ("%d", &array[i]); 
exit(0); 


wd 
QWwWN2 OOPNOoO Wm AWwWN 


p1 
a TTT 
a)pl = malloc (4*sizeof (int)) 
p1 p2 
+ + 
b)p2 = malloc (5*sizeof (int)) 
pi1 p2 p3 

+ + 
Cc)p3 = malloc (6*sizeof (int)) 
p1 p2 p3 
+ + + 
d) free (p2) 
p1 p2 p4 


p3 
: MY + 
e)p4 = malloc (2*sizeof (int)) 


图 9-34 用 malloc 和 free 分 配 和 释放 块 。 每 个 
方 框 对 应 于 一 个 字 。 每 个 粗 线 标 出 的 矩 
形 对 应 于 一 个 块 。 阴 影 部 分 是 已 分 配 的 
块 。 已 分 配 的 块 的 填充 区 域 是 深 阴 影 的 。 
无 阴影 部 分 是 空闲 块 。 堆 地 址 是 从 左 往 
右 增 加 的 


app_error("Input file too big"); 
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像 这 样 用 硬 编码 的 大 小 来 分 配 数 组 通常 不 是 一 种 好 想法 。MAXN 的 值 是 任意 的 ， 与 
机 器 上 可 用 的 虚拟 内 存 的 实际 数量 没有 关系 。 而 且 ， 如 果 这 个 程序 的 使 用 者 想 读 取 一 个 比 
MAXN 大 的 文件 ， 唯 一 的 办 法 就 是 用 一 个 更 大 的 MAXN 值 来 重新 编译 这 个 程序 。 虽 然 对 
于 这 个 简单 的 示例 来 说 这 不 成 问题 ， 但 是 硬 编码 数组 界限 的 出 现 对 于 拥有 百 万 行 代码 和 大 
量 使 用 者 的 大 型 软件 产品 而 言 ， 会 变 成 一 场 维护 的 亚 梦 。 

一 种 更 好 的 方法 是 在 运行 时 ， 在 已 知 了 nn 的 值 之 后 ， 动 态 地 分 配 这 个 数组 。 使 用 这 种 
方法 ， 数 组 大 小 的 最 大 值 就 只 由 可 用 的 虚拟 内 存 数量 来 限制 了 。 


#include "csapp.h" 


1 
3 int main() 

4 苹 

5 int *array, i, n; 

6 

7 scanf ("%d", &n); 

8 array = (int *)Malloc(n * sizeof (int)); 
9 for (i = 0; i < n; i++) 

10 scanf ("%d", &array[i]); 

11 free(array); 

12 exit (0); 

13 + 


动态 内 存 分 配 是 一 种 有 用 而 重要 的 编程 技术 。 然 而 ， 为 了 正确 而 高 效 地 使 用 分 配器 ， 
程序 员 需 要 对 它们 是 如 何 工作 的 有 所 了 解 。 我 们 将 在 9. 11 节 中 讨论 因为 不 正确 地 使 用 分 
配器 所 导致 的 一 些 可 怕 的 错误 。 


9.9.3 分 配器 的 要 求 和 目标 
显 式 分 配器 必须 在 一 些 相当 严格 的 约束 条 件 下 工作 : 
@ 处 理 任意 请 求 序列 。 一 个 应 用 可 以 有 任意 的 分 配 请 求 和 释放 请 求 序 列 ， 只 要 满足 约 
束 条 件 : 每 个 释放 请 求 必 须 对 应 于 一 个 当前 已 分 配 块 ， 这 个 块 是 由 一 个 以 前 的 分 配 
请 求 获得 的 。 因 此 ， 分 配器 不 可 以 假设 分 配 和 释放 请 求 的 顺序 。 例 如 ， 分 配器 不 能 
假设 所 有 的 分 配 请 求 都 有 相 匹 配 的 释放 请 求 ， 或 者 有 相 匹配 的 分 配 和 空闲 请 求 是 般 
套 的 。 
e@ 立即 响应 请 求 。 分 配器 必须 立即 响应 分 配 请 求 。 因 此 ， 不 允许 分 配器 为 了 提高 性 能 
重新 排列 或 者 缓冲 请 求 。 
@ 只 使 用 堆 。 为 了 使 分 配器 是 可 扩展 的 ， 分 配器 使 用 的 任何 非 标量 数据 结构 都 必须 保 
存在 堆 里 。 
@ 对 齐 块 (对 齐 有 要求) 。 分 配器 必须 对 齐 块 ， 使 得 它们 可 以 保存 任何 类 型 的 数据 对 象 。 
@ 不 修改 已 分 配 的 块 。 分 配器 只 能 操作 或 者 改变 空闲 块 。 特 别 是 ， 一 旦 块 被 分 配 了 ， 
就 不 允许 修改 或 者 移动 它 了 。 因 此 ， 诸 如 压缩 已 分 配 块 这样 的 技术 是 不 允许 使 
用 的 。 
在 这 些 限制 条 件 下 ， 分 配器 的 编写 者 试图 实现 吞吐 率 最 大 化 和 内 存 使 用 率 最 大 化 ， 而 
这 两 个 性 能 目标 通常 是 相互 冲突 的 。 
@ 目标 1: 最 大 化 吞吐 率 。 假 定 ” 个 分 配 和 释放 请 求 的 某 种 序列 : 
及 。 ,RI ye sR ye SR, 
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我 们 希望 一 个 分 配器 的 吞吐 率 最 大 化 ， 吞 吐 率 定义 为 每 个 单位 时 间 里 完成 的 请 求 
数 。 例 如 ， 如 果 一 个 分 配器 在 1 秒 内 完成 500 个 分 配 请 求 和 500 个 释放 请 求 ， 那 么 
它 的 吞吐 率 就 是 每 秒 1000 次 操作 。 一 般 而 言 ， 我 们 可 以 通过 使 满足 分 配 和 释放 请 
求 的 平均 时 间 最 小 化 来 使 吞吐 率 最 大 化 。 正 如 我 们 会 看 到 的 ， 开 发 一 个 具有 合理 性 
能 的 分 配器 并 不 困难 ， 所 谓 合理 性 能 是 指 一 个 分 配 请 求 的 最 糟 运行 时 间 与 空闲 块 的 
数量 成 线性 关系 ， 而 一 个 释放 请 求 的 运行 时 间 是 个 常数 。 
@ 目标 2: 最 大 化 内 存 利 用 率 。 天 真 的 程序 员 经 常 不 正确 地 假设 虚拟 内 存 是 一 个 无 限 
的 资源 。 实 际 上 ， 一 个 系统 中 被 所 有 进程 分 配 的 虚拟 内 存 的 全 部 数量 是 受 磁盘 上 交 
换 空间 的 数量 限制 的 。 好 的 程序 员 知 道 虚拟 内 存 是 一 个 有 限 的 空间 ， 必 须 高 效 地 使 
用 。 对 于 可 能 被 要 求 分 配 和 释放 大 块 内 存 的 动态 内 存 分 配器 来 说 ， 尤 其 如 此 。 
有 很 多 方式 来 描述 一 个 分 配器 使 用 堆 的 效率 如 何 。 在 我 们 的 经 验 中 ， 最 有 用 的 标准 是 
峰值 利用 率 (peak utilization)。 像 以 前 一 样 ， 我 们 给 定 ”个 分 配 和 释放 请 求 的 某 种 顺序 
R, Ri ,°° ,RR,_1 
如 果 一 个 应 用 程序 请 求 一 个 p 字 节 的 块 ， 那 么 得 到 的 已 分 配 块 的 有 效 载荷 (payload) 是 p 
字 节 。 在 请 求 Ri 完成 之 后 ， 聚 集 有 效 载荷 (aggregate payload) 表 示 为 P;:， 为 当前 已 分 配 的 
块 的 有 效 载荷 之 和 ， 而 旦 ;表示 堆 的 当前 的 (单调 非 递 减 的 ) 大 小 。 
那么 ， 前 & 十 1 个 请 求 的 峰值 利用 率 ， 表 示 为 U;， 可 以 通过 下 式 得 到 : 


_ maxi<P:; 
U, = | 


那么 ， 分 配器 的 目标 就 是 在 整个 序列 中 使 峰值 利用 率 U,-; 最 大 化 。 正 如 我 们 将 要 看 到 的 ， 
在 最 大 化 吞吐 率 和 最 大 化 利用 率 之 间 是 互相 牵制 的 。 特 别 是 ， 以 堆 利用 率 为 代价 ， 很 容易 
编写 出 吞吐 率 最 大 化 的 分 配器 。 分 配器 设计 中 一 个 有 趣 的 挑战 就 是 在 两 个 目标 之 间 找 到 一 
个 适当 的 平衡 。 


| 旁 注 放宽 单调 性 假设 
我 们 可 以 通过 让 责成 为 前 & 十 1 个 请 求 的 最 高 峰 ， 从 而 使 得 在 我 们 对 Ui 的 定义 中 
放宽 单调 非 递减 的 假设 ， 并 且 允 许 堆 增长 和 降低 。 


9.9.4 碎片 


造成 堆 利用 率 很 低 的 主要 原因 是 一 种 称 为 碎片 (fragmentation) 的 现象 ， 当 虽然 有 未 使 
用 的 内 存 但 不 能 用 来 满足 分 配 请 求 时 ， 就 发 生 这 种 现象 。 有 两 种 形式 的 碎片 : 内 部 碎片 
(internal fragmentation) 和 外 部 碎片 (external fragmentation) 。 

内 部 碎片 是 在 一 个 已 分 配 块 比 有 效 载荷 大 时 发 生 的 。 很 多 原因 都 可 能 造成 这 个 问题 。 
例如 ， 一 个 分 配器 的 实现 可 能 对 已 分 配 块 强加 一 个 最 小 的 大 小 值 ， 而 这 个 大 小 要 比 某 个 请 
求 的 有 效 载荷 大 。 或 者 ， 就 如 我 们 在 图 9-34b 中 看 到 的 ， 分 配器 可 能 增加 块 大 小 以 满足 对 
齐 约束 条 件 。 

内 部 碎片 的 量化 是 简单 明了 的 。 它 就 是 已 分 配 块 大 小 和 它们 的 有 效 载 荷 大 小 之 差 的 
和 。 因 此 ， 在 任意 时 刻 ， 内 部 碎片 的 数量 只 取决 于 以 前 请 求 的 模式 和 分 配器 的 实现 方式 。 

外 部 碎片 是 当空 闲 内 存 合计 起 来 足够 满足 一 个 分 配 请 求 ， 但 是 没有 一 个 单独 的 空闲 块 
足够 大 可 以 来 处 理 这 个 请 求 时 发 生 的 。 例 如 ， 如 果 图 9-34e 中 的 请 求 要 求 6 个 字 ， 而 不 是 
2 个 字 ， 那 么 如 果 不 向 内 核 请 求 额外 的 虚拟 内 存 就 无 法 满足 这 个 请 求 ， 即 使 在 堆 中 仍然 有 
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6 个 空闲 的 字 。 问 题 的 产生 是 由 于 这 6 个 字 是 分 在 两 个 空闲 块 中 的 。 

外 部 碎片 比 内 部 碎片 的 量化 要 困难 得 多 ， 因 为 它 不 仅 取决 于 以 前 请 求 的 模式 和 分 配器 
的 实现 方式 ， 还 取决 于 将 来 请 求 的 模式 。 例 如 ， 假 设 在 & 个 请 求 之 后 ， 所 有 空闲 块 的 大 小 
都 恰好 是 4 个 字 。 这 个 堆 会 有 外 部 碎片 吗 ? 答案 取决 于 将 来 请 求 的 模式 。 如 果 将 来 所 有 的 
分 配 请 求 都 要 求 小 于 或 者 等 于 4 个 字 的 块 ， 那 么 就 不 会 有 外 部 碎片 。 另 一 方面 ， 如 果 有 一 
个 或 者 多 个 请 求 要 求 比 4 个 字 大 的 块 ， 那 么 这 个 堆 就 会 有 外 部 碎片 。 

因为 外 部 碎片 难以 量化 且 不 可 能 预测 ， 所 以 分 配器 通常 采用 启发 式 策 略 来 试图 维持 少 
量 的 大 空闲 块 ， 而 不 是 维持 大 量 的 小 空闲 块 。 


9.9.5 实现 问题 


可 以 想象 出 的 最 简单 的 分 配器 会 把 堆 组 织 成 一 个 大 的 字 节 数组 ， 还 有 一 个 指针 p， 初 
始 指向 这 个 数组 的 第 一 个 字 节 。 为 了 分 配 size 个 字 节 ，malloc 将 p 的 当前 值 保存 在 栈 
里 , 将 p 增 加 size， 并 将 p 的 旧 值 返回 到 调用 函数 。free 只 是 简单 地 返回 到 调用 函数 ， 
而 不 做 其 他 任何 事情 。 

这 个 简单 的 分 配器 是 设计 中 的 一 种 极端 情况 。 因 为 每 个 malloc 和 free 只 执行 很 少 
量 的 指令 ， 吞吐 率 会 极 好 。 然 而 ， 因 为 分 配器 从 不 重复 使 用 任何 块 ， 内 存 利 用 率 将 极 差 。 
一 个 实际 的 分 配器 要 在 吞吐 率 和 利用 率 之 间 把 握 好 平衡 ， 就 必须 考虑 以 下 几 个 问题 ， 

e@ 空闲 块 组 织 : 我 们 如 何 记 录 空 闲 块 ? 

e 放置 : 我 们 如 何 选择 一 个 合适 的 空闲 块 来 放置 一 个 新 分 配 的 块 ? 

e@ 分 割 : 在 将 一 个 新 分 配 的 块 放置 到 某 个 空闲 块 之 后 ， 我 们 如 何 处 理 这 个 空闲 块 中 的 

剩余 部 分 ? 

e@ 合并 : 我 们 如 何 处 理 一 个 刚刚 被 释放 的 块 ? 

本 节 剩 下 的 部 分 将 更 详细 地 讨论 这 些 问题 。 因 为 像 放置 、 分 割 以 及 合并 这 样 的 基本 技 
术 贯 穿 在 许多 不 同 的 空闲 块 组 织 中 ， 所 以 我 们 将 在 一 种 叫做 隐 式 空闲 链表 的 简单 空闲 块 组 
织 结构 中 来 介绍 它们 。 


9.9.6 隐 式 空闲 链表 
任何 实际 的 分 配器 都 需要 一 些 数据 结构 ， 人 允许 它 来 区 别 块 边界 ， 以 及 区 别 已 分 配 块 和 
空闲 块 。 大 多 数 分 配器 将 这 些 信息 艇 人 块 本 身 。 一 个 简单 的 方法 如 图 9-35 所 示 。 
31 头 部 3210 


=1: 
malloc 返回 一 个 指针 ， ooa| 0: SN 


它 指向 有 效 载荷 的 开始 处 





效 载 块 大 小 包括 头 部 、 
(只 旬 括 忆 分 本 的 所 有 效 载荷 和 所 有 的 填充 


填充 (可 选 ) 


图 9-35 ”一 个 简单 的 堆 块 的 格式 


在 这 种 情况 中 ， 一 个 块 是 由 一 个 字 的 头 部 、 有 效 载荷 ， 以 及 可 能 的 一 些 额外 的 填充 组 
成 的 。 头 部 编码 了 这 个 块 的 大 小 (包括 头 部 和 所 有 的 填充 )， 以 及 这 个 块 是 已 分 配 的 还 是 空 
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闲 的 。 如 果 我 们 强加 一 个 双 字 的 对 齐 约束 条 件 ， 那 么 块 大 小 就 总 是 8 的 倍数 ， 且 块 大 小 的 

最 低 3 位 总 是 零 。 因 此 ， 我 们 只 需要 内 存 大 小 的 29 个 高 位 ， 释 放 剩余 的 3 位 来 编码 其 他 

信息 。 在 这 种 情况 中 ， 我 们 用 其 中 的 最 低位 (已 分 配 位 ) 来 指明 这 个 块 是 已 分 配 的 还 是 空闲 

的 。 例 如 ， 假 设 我 们 有 一 个 已 分 配 的 块 ， 大 小 为 24(0x18) 字 节 。 那 么 它 的 头 部 将 是 
0x00000018 | Ox1 = 0x00000019 


类 似 地 ， 一 个 块 大 小 为 40(0x28) 字 节 的 空闲 块 有 如 下 的 头 部 : 


Ox00000028 | 0x0 = 0x00000028 


头 部 后 面 就 是 应 用 调用 malloc 时 请 求 的 有 效 载荷 。 有 效 载荷 后 面 是 一 片 不 使 用 的 填 
充 块 ， 其 大 小 可 以 是 任意 的 。 需 要 填充 有 很 多 原因 。 比 如 ， 填 充 可 能 是 分 配器 策略 的 一 部 
分 ， 用 来 对 付 外 部 碎片 。 或 者 也 需要 用 它 来 满足 对 齐 要 求 。 

假设 块 的 格式 如 图 9-35 所 示 ， 我 们 可 以 将 堆 组 织 为 一 个 连续 的 已 分 配 块 和 空闲 块 的 
序列 ， 如 图 9-36 所 示 。 





Pa a 
堆 的 l 
a TT 人 的 


起 始 
位 置 


图 9-36 用 隐 式 空闲 链表 来 组 织 堆 。 阴 影 部 分 是 已 分 配 块 。 没 有 阴影 的 部 分 是 空闲 块 。 
头 部 标记 为 (大 小 ( 字 节 )/ 已 分 配 位 ) 


我 们 称 这 种 结构 为 隐 式 空闲 链表 ， 是 因为 空闲 块 是 通过 头 部 中 的 大 小 字段 隐 含 地 连接 着 
的 。 分 配器 可 以 通过 遍历 堆 中 所 有 的 块 ， 从 而 间接 地 遍历 整个 空闲 块 的 集合 。 注 意 ， 我 们 需要 
某 种 特殊 标记 的 结束 块 ， 在 这 个 示例 中 ， 就 是 一 个 设置 了 已 分 配 位 而 大 小 为 零 的 终止 头 部 (ter- 
minating header) 。( 就 像 我 们 将 在 9. 9. 12 节 中 看 到 的 ， 设 置 已 分 配 位 简化 了 空闲 块 的 合并 。) 

隐 式 空闲 链表 的 优点 是 简单 。 显 著 的 缺点 是 任何 操作 的 开销 ， 例 如 放置 分 配 的 块 ， 要 
求 对 空闲 链表 进行 搜索 ， 该 搜索 所 需 时 间 与 堆 中 已 分 配 块 和 空闲 块 的 总 数 呈 线性 关系 。 

很 重要 的 一 点 就 是 意识 到 系统 对 齐 要 求 和 分 配器 对 块 格式 的 选择 会 对 分 配器 上 的 最 小 
块 大 小 有 强制 的 要 求 。 没 有 已 分 配 块 或 者 空闲 块 可 以 比 这 个 最 小 值 还 小 。 例 如 ， 如 果 我 们 
假设 一 个 双 字 的 对 齐 要 求 ， 那 么 每 个 块 的 大 小 都 必须 是 双 字 (8 字 节 ) 的 倍数 。 因 此 ， 图 9- 
35 中 的 块 格式 就 导致 最 小 的 块 大 小 为 两 个 字 : 一 个 字 作 头 ， 另 一 个 字 维 持 对 齐 要 求 。 即 
使 应 用 只 请 求 一 字 节 ， 分 配器 也 仍然 需要 创建 一 个 两 字 的 块 。 
钾 可 练习 题 9.6 确定 下 面 malloc 请 求 序列 产生 的 块 大 小 和 头 部 值 。 假 设 : 1) 分 配器 保 

持 双 字 对 齐 ， 并 且 使 用 块 格式 如 图 9-35 中 所 示 的 隐 式 空闲 链表 。2) 块 大 小 向 上 舍 入 

为 最 接近 的 8 字 节 的 倍数 。 


请 求 


| malloc (1) 








块 大 小 (十 进 制 字 节 ) 


块头 部 (十 六 进 制 ) 















malloc (5) 





malloc (12) 





malloc (13) 





9.9.7 放置 已 分 配 的 块 
当 一 个 应 用 请 求 一 个 & 字 节 的 块 时 ， 分 配器 搜索 空闲 链表 ， 查 找 一 个 足够 大 可 以 放置 
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所 请 求 块 的 空闲 块 。 分 配器 执行 这 种 搜索 的 方式 是 由 放置 策略 (placement policy) 确 定 的 。 
一 些 常见 的 策略 是 首次 适 配 (first fit)、 下 一 次 适 配 (next fit) 和 最 佳 适 配 (best fit) 。 

首次 适 配 从 头 开始 搜索 空闲 链表 ， 选 择 第 一 个 合适 的 空闲 块 。 下 一 次 适 配 和 首次 适 配 
很 相似 ， 只 不 过 不 是 从 链表 的 起 始 处 开始 每 次 搜索 ， 而 是 从 上 一 次 查询 结束 的 地 方 开始 。 
最 佳 适 配 检查 每 个 空闲 块 ， 选 择 适 合 所 需 请 求 大 小 的 最 小 空闲 块 。 

首次 适 配 的 优点 是 它 趋向 于 将 大 的 空闲 块 保 留 在 链表 的 后 面 。 缺 点 是 它 趋向 于 在 靠近 
链表 起 始 处 留 下 小 空闲 块 的 “碎片 >， 这 就 增加 了 对 较 大 块 的 搜索 时 间 。 下 一 次 适 配 是 由 
Donald Knuth 作为 首次 适 配 的 一 种 代替 品 最 早 提出 的 ， 源 于 这 样 一 个 想法 : 如 果 我 们 上 
一 次 在 某 个 空闲 块 里 已 经 发 现 了 一 个 匹配 ， 那 么 很 可 能 下 一 次 我 们 也 能 在 这 个 剩余 块 中 发 
现 匹 配 。 下 一 次 适 配 比 首次 适 配 运 行 起 来 明显 要 快 一 些 ， 尤 其 是 当 链 表 的 前 面 布 满 了 许多 
小 的 碎片 时 。 然 而 ， 一些 研究 表明 ， 下 一 次 适 配 的 内 存 利 用 率 要 比 首次 适 配 低 得 多 。 研 究 
还 表明 最 佳 适 配 比 首次 适 配 和 下 一 次 适 配 的 内 存 利 用 率 都 要 高 一 些 。 然 而 ， 在 简单 空闲 链 
表 组 织 结构 中 ， 比 如 隐 式 空闲 链表 中 ， 使 用 最 佳 适 配 的 缺点 是 它 要 求 对 堆 进行 彻底 的 搜 
索 。 在 后 面 ， 我 们 将 看 到 更 加 精细 复杂 的 分 离 式 空闲 链表 组 织 ， 它 接近 于 最 佳 适 配 策略 ， 
不 需要 进行 彻底 的 堆 搜索 。 


9.9.8 分 割 空闲 块 


一 旦 分 配器 找到 一 个 匹配 的 空闲 块 ， 它 就 必须 做 另 一 个 策略 决定 ， 那 就 是 分 配 这 个 空 
闲 块 中 多 少 空间 。 一 个 选择 是 用 整个 空闲 块 。 虽 然 这 种 方式 简单 而 快捷 ， 但 是 主要 的 缺点 
就 是 它 会 造成 内 部 碎片 。 如 果 放 置 策略 趋向 于 产生 好 的 匹配 ， 那 么 额外 的 内 部 碎片 也 是 可 
以 接受 的 。 

然而 ， 如 果 匹 配 不 太 好 ， 那 么 分 配器 通常 会 选择 将 这 个 空闲 块 分 割 为 两 部 分 。 第 一 部 
分 变 成 分 配 块 ， 而 剩 下 的 变 成 一 个 新 的 空闲 块 。 图 9-37 展示 了 分 配器 如 何 分 割 图 9-36 中 
8 个 字 的 空闲 块 ， 来 满足 一 个 应 用 的 对 堆 内 存 3 个 字 的 请 求 。 


ooTT 国 可 TorTTTfrTT 坝 





汉字 
:对 弄 的 





图 9-37 “分割 一 个 空闲 块 ， 以 满足 一 个 3 个 字 的 分 配 请 求 。 阴 影 部 分 是 已 分 配 块 。 
没有 阴影 的 部 分 是 空闲 块 。 头 部 标记 为 (大 小 ( 字 节 )/ 已 分 配 位 ) 


9.9.9 获取 额外 的 堆 内 存 

如 果 分 配器 不 能 为 请 求 块 找到 合适 的 空闲 块 将 发 生 什么 呢 ? 一 个 选择 是 通过 合并 那些 在 
内 存 中 物理 上 相 邻 的 空闲 块 来 创建 一 些 更 大 的 空闲 块 ( 在 下 一 节 中 描述 ) 。 然 而 ， 如 果 这 样 还 
是 不 能 生成 一 个 足够 大 的 块 ， 或 者 如 果 空 闲 块 已 经 最 大 程度 地 合并 了 ， 那 么 分 配器 就 会 通过 
调用 sbrk 函数 ， 向 内 核 请 求 额 外 的 堆 内 存 。 分 配器 将 额外 的 内 存 转化 成 一 个 大 的 空闲 块 ， 
将 这 个 块 插入 到 空闲 链表 中 ， 然 后 将 被 请 求 的 块 放置 在 这 个 新 的 空闲 块 中 。 


9.9. 10 合并 空闲 块 


当 分 配器 释放 一 个 已 分 配 块 时 ， 可 能 有 其 他 空闲 块 与 这 个 新 释放 的 空闲 块 相 邻 。 这 些 
邻接 的 空闲 块 可 能 引起 一 种 现象 ， 叫 做 假 碎片 (fault fragmentation) ， 就 是 有 许多 可 用 的 
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空闲 块 被 切割 成 为 小 的 、 无 法 使 用 的 空闲 块 。 比 如 ， 图 9-38 展示 了 释放 图 9-37 中 分 配 的 
块 后 得 到 的 结果 。 结 果 是 两 个 相 邻 的 空闲 块 ， 每 一 个 的 有 效 载荷 都 为 3 个 字 。 因 此 ， 接 下 
来 一 个 对 4 字 有 效 载 荷 的 请 求 就 会 失败 ， 即 使 两 个 空闲 块 的 合计 大 小 足够 大 ， 可 以 满足 这 
个 请 求 。 





: 双 字 
上 对 齐 的 





| ol | Boo | | hoo | | bo | | 莉 


图 9-38 ” 假 碎片 的 示例 。 阴 影 部 分 是 已 分 配 块 。 没 有 阴影 的 部 分 是 空闲 块 。 
头 部 标记 为 (大 小 ( 字 节 )/ 已 分 配 位 ) 

为 了 解决 假 碎 片 问 题 ， 任 何 实际 的 分 配器 都 必须 合并 相 邻 的 空闲 块 ， 这 个 过 程 称 为 合 
并 (coalescing) 。 这 就 出 现 了 一 个 重要 的 策略 决定 ， 那 就 是 何 时 执行 合并 。 分 配器 可 以 选 
择 立 即 合并 (immediate coalescing)， 也 就 是 在 每 次 一 个 块 被 释放 时 ， 就 合并 所 有 的 相 邻 
块 。 或 者 它 也 可 以 选择 推迟 合并 (deferred coalescing) ， 也 就 是 等 到 某 个 稍 晚 的 时 候 再 合并 
空闲 块 。 例 如 ， 分 配器 可 以 推迟 合并 ， 直 到 某 个 分 配 请 求 失败 ， 然 后 扫描 整个 堆 ， 合 并 所 
有 的 空闲 块 。 

立即 合并 很 简单 明了 ， 可 以 在 常数 时 间 内 执行 完成 ， 但 是 对 于 某 些 请 求 模 式 ， 这 种 方 
式 会 产生 一 种 形式 的 抖动 ， 块 会 反复 地 合并 ， 然 后 马上 分 割 。 例 如 ， 在 图 9-38 中 ， 反 复 
地 分 配 和 释放 一 个 3 个 字 的 块 将 产生 大 量 不 必要 的 分 割 和 合并 。 在 对 分 配器 的 讨论 中 ， 我 
们 会 假设 使 用 立即 合并 ， 但 是 你 应 该 了 解 ， 快 速 的 分 配器 通常 会 选择 某 种 形式 的 推迟 
合并 。 


9.9. 11 带 边界 标记 的 合并 


分 配器 是 如 何 实现 合并 的 ? 让 我 们 称 想 要 释放 的 块 为 当前 块 。 那 么 ， 合 并 (内 存 中 的 ) 
下 一 个 空闲 块 很 简单 而 且 高 效 。 当 前 块 的 头 部 指向 下 一 个 块 的 头 部 ， 可 以 检查 这 个 指针 以 
判断 下 一 个 块 是 否 是 空闲 的 。 如 果 是 ， 就 将 它 的 大 小 简单 地 加 到 当前 块头 部 的 大 小 上 ， 这 
两 个 块 在 常数 时 间 内 被 合并 。 

但 是 我 们 该 如 何 合并 前 面 的 块 呢 ? 给 定 一 个 带头 部 的 隐 式 空闲 链表 ， 唯 一 的 选择 将 是 
搜索 整个 链表 ， 记 住 前 面 块 的 位 置 ， 直 到 我 们 到 达 当 前 块 。 使 用 隐 式 空闲 链表 ， 这 意味 着 
每 次 调用 free 需要 的 时 间 都 与 堆 的 大 小 成 线性 关系 。 即 使 使 用 更 复杂 精细 的 空闲 链表 组 
织 ， 搜 索 时 间 也 不 会 是 常数 。 

Knuth 提出 了 一 种 聪明 而 通用 的 技术 ,叫做 也 | 
边界 标记 (boundary tag)， 人 允许 在 常数 时 间 内 进行 本 
对 前 面 块 的 合并 。 这 种 思想 ， 如 图 9-39 所 示 ， 是 
在 每 个 块 的 结尾 处 添加 一 个 脚 部 (footer， 边 界 标 有 效 载荷 


、、， a= 001: 已 分 配 的 
头 部 。= 000: 空闲 的 








记 )， 其 中 胸部 就 是 头 部 的 一 个 副本 。 如 果 每 个 块 | “人 下 ) 
这 个 脚 部 总 是 在 距 当前 块 开始 位 置 一 个 字 的 距离 。 


包括 这 样 一 个 脚 部 ， 那 么 分 配器 就 可 以 通过 检查 
汪汪 
考虑 当 分 配器 释放 当前 块 时 所 有 可 能 存在 的 eh a/f | 脚 部 


它 的 脚 部 ， 判 断 前 面 一 个 块 的 起 始 位 置 和 状态 ， 
情况 图 9-39 使 用 边界 标记 的 堆 块 的 格式 
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1) 前 面 的 块 和 后 面 的 块 都 是 已 分 配 的 。 

2) 前 面 的 块 是 已 分 配 的 ， 后 面 的 块 是 空闲 的 。 
3) 前 面 的 块 是 空闲 的 ， 而 后 面 的 块 是 已 分 配 的 。 
4) 前 面 的 和 后 面 的 块 都 是 空闲 的 。 

图 9-40 展示 了 我 们 如 何 对 这 四 种 情况 进行 合并 。 





n+mi+m2 























图 9-40 ”使 用 边界 标记 的 合并 (情况 1: 前 面 的 和 后 面 块 都 已 分 配 。 情 况 2: 前 面 块 已 分 配 ， 后 面 
块 空闲 。 情 况 3， 前面 块 空闲 ， 后 面 块 已 分 配 。 情 况 4: 后 面 块 和 前 面 块 都 空闲 ) 

在 情况 1 中 ， 两 个 邻接 的 块 都 是 已 分 配 的 ， 因 此 不 可 能 进行 合并 。 所 以 当前 块 的 状态 
只 是 简单 地 从 已 分 配 变 成 空闲 。 在 情况 2 中 ， 当 前 块 与 后 面 的 块 合并 。 用 当前 块 和 后 面 块 
的 大 小 的 和 来 更 新 当前 块 的 头 部 和 后 面 块 的 脚 部 。 在 情况 3 中 ， 前 面 的 块 和 当前 块 合并 。 
用 两 个 块 大 小 的 和 来 更 新 前 面 块 的 头 部 和 当前 块 的 脚 部 。 在 情况 4 中 ， 要 合并 所 有 的 三 个 
块 形成 一 个 单独 的 空闲 块 ， 用 三 个 块 大 小 的 和 来 更 新 前 面 块 的 头 部 和 后 面 块 的 脚 部 。 在 每 
种 情况 中 ， 合 并 都 是 在 常数 时 间 内 完成 的 。 

边界 标记 的 概念 是 简单 优雅 的 ， 它 对 许多 不 同类 型 的 分 配器 和 空闲 链表 组 织 都 是 通用 
的 。 然 而 ， 它 也 存在 一 个 潜在 的 缺陷 。 它 要 求 每 个 块 都 保持 一 个 头 部 和 一 个 脚 部 ， 在 应 用 
程序 操作 许多 个 小 块 时 ， 会 产生 显著 的 内 存 开销 。 例 如 ， 如 果 一 个 图 形 应 用 通过 反复 调用 
malloc 和 free 来 动态 地 创建 和 销毁 图 形 节 点 ， 并 且 每 个 图 形 节 点 都 只 要 求 两 个 内 存 字 ， 
那么 头 部 和 脚 部 将 占用 每 个 已 分 配 块 的 一 半 的 空间 。 

幸运 的 是 ， 有 一 种 非常 聪明 的 边界 标记 的 优化 方法 ， 能 够 使 得 在 已 分 配 块 中 不 再 需要 
脚 部 。 回 想 一 下 ， 当 我 们 试图 在 内 存 中 合并 当前 块 以 及 前 面 的 块 和 后 面 的 块 时 ， 只 有 在 前 
面 的 块 是 空闲 时 ， 才 会 需要 用 到 它 的 脚 部 。 如 果 我 们 把 前 面 块 的 已 分 配 /空闲 位 存放 在 当 
前 块 中 多 出 来 的 低位 中 ， 那 么 已 分 配 的 块 就 不 需要 脚 部 了 ， 这 样 我 们 就 可 以 将 这 个 多 出 来 
的 空间 用 作 有 效 载 荷 了 。 不 过 请 注意 ， 空 闲 块 仍然 需要 脚 部 。 
许 S 练 习题 9. 7 确定 下 面 每 种 对 齐 要 求 和 块 格式 的 组 合 的 最 小 的 块 大 小 。 假 设 : 隐 式 空 

闲 链表 ， 不 允许 有 效 载荷 为 零 ， 头 部 和 和 脚 部 存放 在 4 字 节 的 字 中 。 
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最 小 块 大 小 ( 字 节 ) 
> 和 部 | | 


sp 和 IN 部 | | 
Xp 部 | | 
和 部 | | 











对 齐 要 求 已 分 配 的 块 
头 部 ， 但 是 无 脚 部 
头 部 和 胸部 
头 部 ， 但 是 没有 脚 部 
9.9. 12 综合 : 实现 一 个 简单 的 分 配器 

构造 一 个 分 配器 是 一 件 富 有 挑战 性 的 任务 。 设 计 空 间 很 大 ， 有 多 种 块 格式 、 空 闲 链表 
格式 ， 以 及 放置 、 分 割 和 合并 策略 可 供 选 择 。 另 一 个 挑战 就 是 你 经 常 被 迫 在 类 型 系统 的 安 
全 和 熟悉 的 限定 之 外 编程 ， 依 赖 于 容易 出 错 的 指针 强制 类 型 转换 和 指针 运算 ， 这 些 操作 都 
属于 典型 的 低层 系统 编程 。 

虽然 分 配器 不 需要 大 量 的 代码 ， 但 是 它们 也 还 是 细微 而 不 可 忽视 的 。 熟 悉 诸 如 
C++ 或 者 Java 之 类 高 级 语言 的 学 生 通 常 在 他 们 第 一 次 遇 到 这 种 类 型 的 编程 时 ， 会 遭遇 
一 个 概念 上 的 障碍 。 为 了 帮助 你 清除 这 个 障碍 ， 我 们 将 基于 隐 式 空闲 链表 ， 使 用 立即 边 
界 标记 合并 方式 ， 从 头 至 尾 地 讲述 一 个 简单 分 配器 的 实现 。 最 大 的 块 大 小 为 2 一 4GB。 
代码 是 64 位 干净 的 ， 即 代码 能 不 加 修改 地 运行 在 32 位 (gcc -m32) 或 64 位 (gcc -m64) 的 
进程 中 。 

1. 通用 分 配器 设计 

我 们 的 分 配器 使 用 如 图 9-41 所 示 的 memlib.c 包 所 提供 的 一 个 内 存 系 统 模型 。 模 型 的 
目的 在 于 允许 我 们 在 不 干涉 已 存在 的 系统 层 malloc 包 的 情况 下 ， 运 行 分 配器 。 

mem_init 函数 将 对 于 堆 来 说 可 用 的 虚拟 内 存 模型 化 为 一 个 大 的 、 双 字 对 齐 的 字 节 
数组 。 在 mem heap 和 mem brk 之 间 的 字 节 表示 已 分 配 的 虚拟 内 存 。mem_brk 之 后 的 字 
节 表 示 未 分 配 的 虚拟 内 存 。 分 配器 通过 调用 mem_sbrk 函数 来 请 求 额外 的 堆 内 存 ， 这 个 
函数 和 系统 的 sbrk 函数 的 接口 相同 ， 而 且 语义 也 相同 ， 除 了 它 会 拒绝 收缩 堆 的 请 求 。 

- 分 配器 包含 在 一 个 源 文件 中 (mm.c)， 用 户 可 以 编译 和 链接 这 个 源 文件 到 他 们 的 应 用 之 
中 。 分 配器 输出 三 个 函数 到 应 用 程序 


1 extern int mm_init(void); 
p>: extern void *mm_malloc (size_t size); 
3 extern void mm_free (void *ptr); 


mm init 函数 初始 化 分 配器 ， 如 果 成 功 就 返回 0， 否 则 就 返回 一 1]。mm malloc 和 mm_ 
free 函数 与 它们 对 应 的 系统 函数 有 相同 的 接口 和 语义 。 分 配器 使 用 如 图 9-39 所 示 的 块 格 
式 。 最 小 块 的 大 小 为 16 字 节 。 空 闲 链表 组 织 成 为 一 个 隐 式 空闲 链表 ， 具 有 如 图 9-42 所 示 
的 恒定 形式 。 

第 一 个 字 是 一 个 双 字 边界 对 齐 的 不 使 用 的 填充 字 。 填 充 后 面 紧 跟着 一 个 特殊 的 序言 块 
(prologue block) ， 这 是 一 个 8 字 节 的 已 分 配 块 ， 只 由 一 个 头 部 和 一 个 脚 部 组 成 。 序 言 块 
是 在 初始 化 时 创建 的 ， 并 且 永 不 释放 。 在 序言 块 后 紧 跟 的 是 零 个 或 者 多 个 由 malloc 或 者 
free 调用 创建 的 普通 块 。 堆 总 是 以 一 个 特殊 的 结尾 块 (epilogue block) 来 结束 ， 这 个 块 是 
一 个 大 小 为 零 的 已 分 配 块 ， 只 由 一 个 头 部 组 成 。 序 言 块 和 结尾 块 是 一 种 消除 合并 时 边界 条 
件 的 技巧 。 分 配器 使 用 一 个 单独 的 私有 (static) 全 局 变量 (heap_ listp)， 它 总 是 指向 序 
言 块 。( 作 为 一 个 小 优化 ， 我 们 可 以 让 它 指 向 下 一 个 块 ， 而 不 是 这 个 序言 块 。) 
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code/vm/malloc/memlib.c 
1 /* Private global variables */ 
六 static char *mem_heap; /* Points to first byte of heap */ 
3 static char *mem_brk; /* Points to last byte of heap plus 1 */ 
4 static char *mem_max_addr; /* Max legal heap addr Plus 1*/ 
5 
6 /* 
7 * mem_init - Initialize the memory System model 
8 */ 
9 void mem_init(void) 
i@ ”村 
11 mem_heap = (char *)Malloc(MAX_HEAP); 
谤 mem_brk = (char *)mem_heap; 
13 mem_max_addr = (char *) (mem_heap + MAX_HEAP) ; 
带 下 
15 
16 /* 
权 * mem_sbrk - Simple model of the sbrk function. Extends the heap 
18 * by incr bytes and returns the start address of the new area. In 
19 水 this model, the heap cannot be shrunk. 
20 */ 
21 void *mem_sbrk(int incr) 
22 蒜 
23 char *old_brk = mem_brk; 
24 
25 if ( (incr < 0) || ((mem_brk + incr) > mem_max_addr)) { 
26 errno = ENOMEM; 
27 fprintf (stderr, "ERROR: mem_sbrk failed. Ran out of memory...\n'"); 
28 return (void *)-1; 
29 } 
30 mem_brk += incr; 
31 return (void *)old_brk; 
:> 
code/vm/malloc/memlib.c 
图 9-41 memlib.c: 内 存 系统 模型 
普通 块 1 普通 块 2 普通 块 结尾 块 hdr 


= yy 
-EE 


static char *heap listp 


图 9-42 隐 式 空闲 链表 的 恒定 形式 


2. 操作 空闲 链表 的 基本 常数 和 宏 

图 9-43 展示 了 一 些 我 们 在 分 配器 编码 中 将 要 使 用 的 基本 常数 和 宏 。 第 2 一 4 行 定 义 了 
一 些 基本 的 大 小 常数 : 字 的 大 小 (WSIZE) 和 双 字 的 大 小 (DSIZE)， 初 始 空闲 块 的 大 小 和 扩 
展 堆 时 的 默认 大 小 (CHUNKSIZE) 。 

在 空闲 链表 中 操作 头 部 和 脚 部 可 能 是 很 麻烦 的 ， 因 为 它 要 求 大量 使 用 强制 类 型 转换 和 指针 
运算 。 因 此 ， 我 们 发 现 定义 一 小 组 宏 来 访问 和 遍历 空闲 链表 是 很 有 帮助 的 (第 9 一 25 行 )。PACK 
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宏 ( 第 9 行 ) 将 大 小 和 已 分 配 位 结合 起 来 并 返回 一 个 值 ， 可 以 把 它 存 放 在 头 部 或 者 脚 部 中 。 


code/vm/malloc/mm.c 


/* Basic constants and macros */ 
#define WSIZE 4 /* Word and header/footer size (bytes) */ 
#define DSIZE 8 /* Double word size (bytes) */ 


#define CHUNKSIZE (1<<12) /* Extend heap by this amount (bytes) */ 
#define MAX(x, y) ((x) > (y)? (x) : (y)) 


/* Pack a size and allocated bit into a word */ 
#define PACK(size, alloc) ((size) | (alloc)) 


OO oNO mWD 一 


11  /* Read and write a word at address p */ 
12  #define GET(p) (*(unsigned int *) (p)) 
13  #define PUT(p, val) (*(unsigned int *)(p) = (val)) 


者 /* Read the size and allocated fields from address p */ 
16  #define GET_SIZE(p) (GET(p) & ~Ox7) 
17  #define GET_ALLOC(p) (GET(p) & Ox1) 


19  /* Given block ptr bp, compute address of its header and footer */ 
20  #define HDRP (bp) ((char *) (bp) - WSIZE) 
21 #define FTRP (bp) ((char *) (bp) + GET_SIZE(HDRP(bp)) - DSIZE) 


23 /* Given block ptr bp, compute address of next and previous blocks */ 
24  #define NEXT_BLKP(bp) ((char *)(bp) + GET_SIZE(((char *) (bp) - WSIZE))) 
25  #define PREV_BLKP(bp) ((char *)(bp) - GET_SIZE(((char *) (bp) - DSIZE))) 


code/vm/malloc/mm.c 
图 9-43 ”操作 空闲 链表 的 基本 常数 和 宏 


GET 宏 ( 第 12 行 ) 读 取 和 返回 参数 p 引用 的 字 。 这 里 强制 类 型 转换 是 至 关 重 要 的 。 参 
数 p 典型 地 是 一 个 (viod* ) 指 针 ， 不 可 以 直接 进行 间接 引用 。 类 似 地 ，PUT 宏 ( 第 13 行 ) 
将 val 存放 在 参数 p 指向 的 字 中 。 

GET_SIZE 和 GET_ALLOC 宏 ( 第 16~17 行 ) 从 地 址 p 处 的 头 部 或 者 脚 部 分 别 返回 大 
小 和 已 分 配 位 。 剩 下 的 宏 是 对 块 指针 (block pointer， 用 bp 表示 ) 的 操作 ， 块 指针 指向 第 一 
个 有 效 载 荷 字 节 。 给 定 一 个 块 指针 bpp，HDRP 和 FTRP 宏 ( 第 20~21 行 ) 分 别 返回 指向 这 
个 块 的 头 部 和 脚 部 的 指针 。NEXT_BLKP 和 PREV_BLKP 宏 ( 第 24~25 行 ) 分 别 返回 指向 
后 面 的 块 和 前 面 的 块 的 块 指针 。 

可 以 用 多 种 方式 来 编辑 宏 ， 以 操作 空闲 链表 。 比 如 ， 给 定 一 个 指向 当前 块 的 指针 bp， 
我 们 可 以 使 用 下 面 的 代码 行 来 确定 内 存 中 后 面 的 块 的 大 小 : 

size_t size = GET_SIZE(HDRP (NEXT_BLKP (bp))); 


3. 创建 初始 空闲 链表 

在 调用 mm malloc 或 者 mm_free 之 前 ， 应 用 必须 通过 调用 mm_init 函数 来 初始 化 堆 
( 见 图 9-44) 。 

mm_init 函数 从 内 存 系统 得 到 4 个 字 ， 并 将 它们 初始 化 ， 创 建 一 个 空 的 空闲 链表 (第 4 
一 10 行 )。 然 后 它 调用 extend_heap 函数 (图 9-45) ， 这 个 函数 将 堆 扩 展 CHUNKSIZE 字 
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节 ， 并 且 创 建 初始 的 空闲 块 。 此 刻 ， 分 配器 已 初始 化 了 ， 并 且 准 备 好 接受 来 自 应 用 的 分 配 
和 释放 请 求 。 





code/ ym/malloc/mm.c 
1 int mm_init(void) 
喀 ” 汪 
3 /* Create the initial empty heap */ 
4 if ((heap._listp = mem_sbrk(4*WSIZE)) == (void *)-1) 
5 return -1; 
6 PUT (heap_listp, 0); /* Alignment padding */ 
六 PUT(heap_listp + (1*WSIZE), PACK(DSIZE, 1)); /* Prologue header */ 
8 PUT(heap_listp + (2*WSIZE), PACK(DSIZE, 1)); /* Prologue footer */ 
9 PUT(heap_listp + (3*WSIZE), PACK(0, 1)); /* Epilogue header */ 
10 heap_listp += (2*WSIZE); 
1 
谍 /* Extend the empty heap with a free block of CHUNKSIZE bytes */ 
Be: if (extend_heap (CHUNKSIZE/WSIZE) == NULL) 
14 return -1; 
15 return 0; 
入 ”让 a 
code/ym/malloc/mm.c 
图 9-44 ”mm_init; 创建 带 一 个 初始 空闲 块 的 堆 
code/vm/malloc/mm.c 
1 static void *extend_heap(size_t words) 
名 
和 char *bp; 
4 Size_t size; 
SS 
6 /* Allocate an even number of words to maintain alignment */ 
size = (words % 2) ?了 (words+1) * WSIZE : words * WSIZE; 
8 if ((long)(bp = mem_sbrk(size)) == -1) 
9 return NULL ; 
10 
和 /* Initialize free block header/footer and the epilogue header */ 
了 PUT(HDRP (bp), PACK(size, 0)); /* Free block header */ 
入 PUT(FTRP (bp), PACK(size, 0)); /* Free block footer */ 
14 PUT (HDRP (NEXT_BLKP (bp)), PACK(O0, 1)); /* New epilogue header */ 
13 
16 /* Coalesce if the previous block was free */ 
17 return coalesce(bp); 
被 于 


code/vm/malloc/mm.c 
图 9-45 ”extenqd heap: 用 一 个 新 的 空闲 块 扩展 堆 


extend _heap 函数 会 在 两 种 不 同 的 环境 中 被 调用 : 1) 当 堆 被 初始 化 时 ; 2) 当 mm _mal- 
loc 不 能 找到 一 个 合适 的 匹配 块 时 。 为 了 保持 对 齐 ，extend_heap 将 请 求 大 小 向 上 舍 人 为 
最 接近 的 2 字 (8 字 节 ) 的 倍数 ， 然 后 向 内 存 系统 请 求 额外 的 堆 空 间 ( 第 7 一 9 行 ) 。 

extend heap 函数 的 剩余 部 分 (第 12~17 行 ) 有 点 儿 微 妙 。 堆 开始 于 一 个 双 字 对 齐 的 
边界 ， 并 且 每 次 对 extend heap 的 调用 都 返回 一 个 块 ， 该 块 的 大 小 是 双 字 的 整数 倍 。 因 
此 ， 对 mem_sbrk 的 每 次 调用 都 返回 一 个 双 字 对 齐 的 内 存 片 ， 紧 跟 在 结尾 块 的 头 部 后 面 。 
这 个 头 部 变 成 了 新 的 空闲 块 的 头 部 (第 12 行 )， 并 且 这 个 片 的 最 后 一 个 字 变 成 了 新 的 结 必 
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块 的 头 部 (第 14 行 )。 最 后 ， 在 很 可 能 出 现 的 前 一 个 堆 以 一 个 空闲 块 结束 的 情况 中 ， 我 们 
调用 coalesce 函数 来 合并 两 个 空闲 块 ， 并 返回 指向 合并 后 的 块 的 块 指针 (第 17 行 )。 

4. 释放 和 合并 块 

应 用 通过 调用 mm_free 函数 (图 9-46)， 来 释放 一 个 以 前 分 配 的 块 ， 这 个 函数 释放 所 请 求 
的 块 (pp)， 然 后 使 用 9. 9. 11 节 中 描述 的 边界 标记 合并 技术 将 之 与 邻接 的 空闲 块 合 并 起 来 。 


code/vm/malloc/mm.c 
1 void mm_free(void *bp) 
区 和 未 
3 size_t size = GET_SIZE(HDRP (bp)); 
4 
5 PUT (HDRP (bp), PACK(size, 0)); 
6 PUT (FTRP (bp), PACK(size, 0)); 
7 coalesce (bp); 
& J} 
9 
10 static void *coalesce(void *bp) 
11 { 
视 size_t prev_alloc = GET_ALLOC(FTRP (PREV_BLKP (bp))); 
13 size_t next_alloc = GET_ALLOC(HDRP (NEXT_BLKP (bp))); 
14 size_t size = GET_SIZE(HDRP (bp)); 
治 
16 if (prev_alloc && next_alloc) { /* Case 1 */ 
1 return bp; 
18 } 
19 
20 else if (prev_alloc && !next_alloc) { /* Case 2 */ 
21 size += GET_SIZE(HDRP (NEXT_BLKP (bp))); 
22 PUT (HDRP (bp) , PACK(size, 0)); 
23 PUT(FTRP (bp), PACK(size,0)); 
24 J} 
2 
26 else if (!prev_alloc && next_alloc) { /* Case 3 */ 
27 size += GET_SIZE(HDRP (PREV_BLKP (bp))); 
28 PUT(FTRP (bp), PACK(size, 0)); 
29 PUT(HDRP (PREV_BLKP (bp)), PACK(size, 0)); 
30 bp = PREV_BLKP (bp); 
31 } 
32 
33 else { /* Case 4 */ 
34 size += GET_SIZE(HDRP(PREV_BLKP(bp))) + 
35 GET_SIZE(FTRP (NEXT_BLKP (bp) ) ) ; 
36 PUT (HDRP (PREV_BLKP (bp)), PACK(size, 0)); 
37 PUT (FTRP (NEXT_BLKP (bp)), PACK(size, 0)); 
38 bp = PREV_BLKP (bp); 
39 . 
40 return bp; 
41 } 
code/vm/malloc/mm.c 


图 9-46 ”mm free: 释放 一 个 块 ， 并 使 用 边界 标记 合并 将 之 与 所 有 的 邻接 空闲 块 在 常数 时 间 内 合并 
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coalesce 函数 中 的 代码 是 图 9-40 中 勾画 的 四 种 情况 的 一 种 简单 直接 的 实现 。 这 里 也 
有 一 个 微妙 的 方面 。 我 们 选择 的 空闲 链表 格式 ( 它 的 序言 块 和 结尾 块 总 是 标记 为 已 分 配 ) 允 
许 我 们 忽略 潜在 的 麻烦 边界 情况 ， 也 就 是 ， 请 求 块 bp 在 堆 的 起 始 处 或 者 是 在 堆 的 结尾 处 。 
如 果 没 有 这 些 特殊 块 ， 代 码 将 混乱 得 多 ， 更 加 容易 出 错 ， 并 且 更 慢 ， 因 为 我 们 将 不 得 不 在 
每 次 释放 请 求 时 ， 都 去 检查 这 些 并 不 常见 的 边界 情况 。 

5. 分 配 块 

一 个 应 用 通过 调用 mm _malloc 函数 ( 见 图 9-47) 来 向 内 存 请 求 大 小 为 size 字 节 的 块 。 
在 检查 完 请 求 的 真 假 之 后 ， 分 配器 必须 调整 请 求 块 的 大 小 ， 从 而 为 头 部 和 脚 部 留 有 空间 ， 
并 满足 双 字 对 齐 的 要 求 。 第 12 一 13 行 强制 了 最 小 块 大 小 是 16 字 节 : 8 字 节 用 来 满足 对 齐 
要 求 ， 而 另外 8 个 用 来 放 头 部 和 脚 部 。 对 于 超过 8 字 节 的 请 求 ( 第 15 行 )， 一 般 的 规则 是 
加 上 开销 字 节 ， 然 后 向 上 舍 信 到 最 接近 的 8 的 整数 倍 。 


code/vm/malloc/mm.c 
void *mm_malloc(size_t size) 


1 

2 

3 size_t asize; /* Adjusted block size */ 

4 size_t extendsize; /* Amount to extend heap if no fit */ 
5 char *bp; 

6 

2 /* Ignore spurious requests */ 

8 if (size == 0) 

9 return NULL ; 

10 

11 /* Adjust block size to include overhead and alignment reqs. */ 
12 if (size <= DSIZE) 

13 asize = 2*DSIZE; 

14 else 

LE asize = DSIZE * ((size + (DSIZE) + (DSIZE-1)) / DSIZE) ; 
16 

17 /* Search the free list for a fit */ 

18 if ((bp = find_fit(asize)) != NULL) { 

19 place(bp, asize); 

20 return bp; 

21 } 

22 

23 /* No fit found. Get more memory and place the block */ 
24 extendsize = MAX(asize,CHUNKSIZE) ; 

25 if ((bp = extend_heap(extendsize/WSIZE)) == NULL) 

26 return NULL; 

27 place(bp, asize); 

28 return bp; 

29 


code/vm/malloc/mm.c 
图 9-47 mm malloc: 从 空闲 链表 分 配 一 个 块 
一 旦 分 配器 调整 了 请 求 的 大 小 ， 它 就 会 搜索 空闲 链表 ， 和 寻找 一 个 合适 的 空闲 块 ( 第 18 
行 )。 如 果 有 合适 的 ， 那 么 分 配器 就 放置 这 个 请 求 块 ， 并 可 选 地 分 割 出 多 余 的 部 分 (第 19 
行 )， 然 后 返回 新 分 配 块 的 地 址 。 
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如 果 分 配器 不 能 够 发 现 一 个 匹配 的 块 ， 那 么 就 用 一 个 新 的 空闲 块 来 扩展 堆 (第 24 一 26 
行 )， 把 请 求 块 放置 在 这 个 新 的 空闲 块 里 ， 可 选 地 分 割 这 个 块 ( 第 27 行 )， 然 后 返回 一 个 指 
针 ， 指 向 这 个 新 分 配 的 块 。 
练习 题 9.8 为 9.9.12 节 中 描述 的 简单 分 配器 实现 一 个 find fit 函数 。 


static void *find_fit(size_t asize) 


你 的 解答 应 该 对 隐 式 空闲 链表 执行 首次 适 配 搜索 。 
练习 题 9.9 为 示例 的 分 配器 编写 一 个 place 函数 。 


static void place(void *bp, size_t asize) 


你 的 解答 应 该 将 请 求 块 放置 在 空闲 块 的 起 始 位 置 ， 只 有 当 剩 余部 分 的 大 小 等 于 或 
者 超出 最 小 块 的 大 小 时 ， 才 进行 分 割 。 


9.9.13 显 式 空闲 链表 


隐 式 空闲 链表 为 我 们 提供 了 一 种 介绍 一 些 基 本 分 配器 概念 的 简单 方法 。 然 而 ， 因 为 块 
分 配 与 堆 块 的 总 数 呈 线性 关系 ， 所 以 对 于 通用 的 分 配器 ， 隐 式 空闲 链表 是 不 适合 的 (尽管 
对 于 堆 块 数量 预先 就 知道 是 很 小 的 特殊 的 分 配器 来 说 它 是 可 以 的 ) 。 

一 种 更 好 的 方法 是 将 空闲 块 组 织 为 某 种 形式 的 显 式 数据 结构 。 因 为 根据 定义 ， 程 序 不 
需要 一 个 空闲 块 的 主体 ， 所 以 实现 这 个 数据 结构 的 指针 可 以 存放 在 这 些 空闲 块 的 主体 里 
面 。 例 如 ， 堆 可 以 组 织 成 一 个 双向 空闲 链表 ， 在 每 个 空闲 块 中 ， 都 包含 一 个 pred( 前 驱 ) 
和 succ( 后 继 ) 指 针 ， 如 图 9-48 所 示 。 




































31 人 10 31 3210 
块 大 小 a/f | 头 部 头 部 
pred (祖先 ) 
sm i 
填充 (可 选 ) 填充 (可 选 ) 
块 大 小 a/f | 脚 部 块 大 小 脚 部 
a) 分 配 块 b ) 空闲 块 


图 9-48 ”使 用 双向 空闲 链表 的 堆 块 的 格式 


使 用 双向 链表 而 不 是 隐 式 空闲 链表 ， 使 首次 适 配 的 分 配 时 间 从 块 总 数 的 线性 时 间 减 少 
到 了 空闲 块 数量 的 线性 时 间 。 不 过 ， 释 放 一 个 块 的 时 间 可 以 是 线性 的 ， 也 可 能 是 个 常数 ， 
这 取决 于 我 们 所 选择 的 空闲 链表 中 块 的 排序 策略 。 

一 种 方法 是 用 后 进 先 出 (LIFO) 的 顺序 维护 链表 ， 将 新 释放 的 块 放置 在 链表 的 开始 处 。 
使 用 LIFO 的 顺序 和 首次 适 配 的 放置 策略 ， 分 配器 会 最 先 检查 最 近 使 用 过 的 块 。 在 这 种 情 
况 下 ， 释 放 一 个 块 可 以 在 常数 时 间 内 完成 。 如 果 使 用 了 边界 标记 ， 那 么 合并 也 可 以 在 常数 
时 间 内 完成 。 

男 一 种 方法 是 按照 地 址 顺序 来 维护 链表 ， 其 中 链表 中 每 个 块 的 地 址 都 小 于 它 后 继 的 地 
址 。 在 这 种 情况 下 ， 释 放 一 个 块 需要 线性 时 间 的 搜索 来 定位 合适 的 前 驱 。 平 衡 点 在 于 ， 按 
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照 地 址 排序 的 首次 适 配 比 LIFO 排序 的 首次 适 配 有 更 高 的 内 存 利 用 率 ， 接 近 最 佳 适 配 的 利 
用 率 。 

一 般 而 言 ， 显 式 链表 的 缺点 是 空闲 块 必须 足够 大 ， 以 包含 所 有 需要 的 指针 ， 以 及 头 部 
和 可 能 的 脚 部 。 这 就 导致 了 更 大 的 最 小 块 大 小 ， 也 潜在 地 提高 了 内 部 碎片 的 程度 。 


9.9. 14 分 离 的 空闲 链表 


就 像 我 们 已 经 看 到 的 ， 一 个 使 用 单 向 空闲 块 链表 的 分 配器 需要 与 空闲 块 数 量 呈 线性 关 
系 的 时 间 来 分 配 块 。 一 种 流行 的 减少 分 配 时 间 的 方法 ， 通 常 称 为 分 离 存 储 (segregated 
storage) ， 就 是 维护 多 个 空闲 链表 ， 其 中 每 个 链表 中 的 块 有 大 致 相等 的 大 小 。 一 般 的 思路 
是 将 所 有 可 能 的 块 大 小 分 成 一 些 等 价 类 ， 也 叫做 大 小 类 (size class) 。 有 很 多 种 方式 来 定义 
大 小 类 。 例 如 ， 我 们 可 以 根据 2 的 寡 来 划分 块 大 小 : 

{1},{2},{3,4},{5 一 8)，…，,{(1025 ~ 2048},{2049 ~ 4096}, {4097 ~ co) 
或 者 我 们 可 以 将 小 的 块 分 派 到 它们 自己 的 大 小 类 里 ， 而 将 大 块 按照 2 的 寡 分 类 : 
{1},{2},{3}),..,{1023}),{1024},{1025 ~ 2048},{2049 一 4096}, {4097 ~ oo} 

分 配器 维护 着 一 个 空闲 链表 数组 ， 每 个 大 小 类 一 个 空闲 链表 ， 按 照 大 小 的 升序 排列 。 
当 分 配器 需要 一 个 大 小 为 n 的 块 时 ， 它 就 搜索 相应 的 空闲 链表 。 如 果 不 能 找到 合适 的 块 与 
之 匹配 ， 它 就 搜索 下 一 个 链表 ， 以 此 类 推 。 

有 关 动 态 内 存 分 配 的 文献 描述 了 几 十 种 分 离 存储 方法 ， 主 要 的 区 别 在 于 它们 如 何 定义 
大 小 类 ， 何 时 进行 合并 ， 何 时 向 操作 系统 请 求 额 外 的 堆 内 存 ， 是 否 人 允许 分 割 ， 等 等 。 为 了 
使 你 大 致 了 解 有 哪些 可 能 性 ， 我 们 会 描述 两 种 基本 的 方法 : 简单 分 离 存储 (simple segrega- 
ted storage) 和 分 离 适 配 (segregated fit) 。 

1. 简单 分 离 存 储 

使 用 简单 分 离 存 储 ， 每 个 大 小 类 的 空闲 链表 包含 大 小 相等 的 块 ， 每 个 块 的 大 小 就 是 这 
个 大 小 类 中 最 大 元 素 的 大 小 。 例 如 ， 如 果 某 个 大 小 类 定义 为 {17 一 32}， 那 么 这 个 类 的 空闲 
链表 全 由 大 小 为 - Lr 

为 了 分 配 一 个 给 定 大 小 的 块 ， 我 们 检查 相应 的 空 闪 链表。 如果 链表 非 空 ， 我 们 简单 地 
PR 空闲 块 是 不 会 分 割 以 满足 分 配 请 求 的 。 如 果 链 表 为 空 ， 分 配器 就 
向 操作 系统 请 求 一 个 固定 大 小 的 额外 内 存 片 (通常 是 页 大 小 的 整数 倍 )， 将 这 个 片 分 成 大 小 
相等 的 块 ， 并 将 这 些 块 链接 起 来 形成 新 的 空闲 链表 。 要 释放 一 个 块 ， 分 配器 只 要 简单 地 将 
这 个 块 插入 到 相应 的 空闲 链表 的 前 部 。 

这 种 简单 的 方法 有 许多 优点 。 分 配 和 释放 块 都 是 很 快 的 常数 时 间 操 作 。 而 且 ， 每 个 片 
中 都 是 大 小 相等 的 块 ， 不 分 割 ， 不 合并 ， 这 意味 着 每 个 块 只 有 很 少 的 内 存 开销 。 由 于 每 个 
片 只 有 大 小 相同 的 块 ， 那 么 一 个 已 分 配 块 的 大 小 就 可 以 从 它 的 地 址 中 推断 出 来 。 因 为 没有 
合并 ， 所 以 已 分 配 块 的 头 部 就 不 需要 一 个 已 分 配 /空闲 标记 。 因 此 已 分 配 块 不 需要 头 部 ， 
同时 因为 没有 合并 ， 它 们 也 不 需要 脚 部 。 因 为 分 配 和 释放 操作 都 是 在 空闲 链表 的 起 始 处 操 
作 ， 所 以 链表 只 需要 是 单 向 的 ， 而 不 用 是 双向 的 。 关 键 点 在 于 ， 在 任何 块 中 都 需要 的 唯一 
字段 是 每 个 空闲 块 中 的 一 个 字 的 succ 指针 ， 因 此 最 小 块 大 小 就 是 一 个 字 。 

一 个 显著 的 缺点 是 ， 简 单 分 离 存储 很 容易 造成 内 部 和 外 部 碎片 。 因 为 空闲 块 是 不 会 被 
分 割 的 ， 所 以 可 能 会 造成 内 部 碎片 。 更 糟 的 是 ， 因 为 不 会 合并 空闲 块 ， 所 以 某 些 引 用 模式 
会 引起 极 多 的 外 部 碎片 ( 见 练 习题 9. 10) 。 

区 练习 题 9. 10 ”描述 一 个 在 基于 简单 分 离 存储 的 分 配器 中 会 导致 严重 外 部 碎片 的 引用 模式 。 
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2. 分 离 适 配 

使 用 这 种 方法 ， 分 配器 维护 着 一 个 空闲 链表 的 数组 。 每 个 空闲 链表 是 和 一 个 大 小 类 相 
关联 的 ， 并 且 被 组 织 成 某 种 类 型 的 显 式 或 隐 式 链表 。 每 个 链表 包含 潜在 的 大 小 不 同 的 块 ， 
这 些 块 的 大 小 是 大 小 类 的 成 员 。 有 许多 种 不 同 的 分 离 适 配 分 配器 。 这 里 ， 我 们 描述 了 一 种 
简单 的 版 本 。 

为 了 分 配 一 个 块 ， 必 须 确定 铺 求 的 大 小 类 ， 并 且 对 适当 的 空闲 链表 做 首次 适 配 ， 查 找 
一 个 合适 的 块 。 如 果 找 到 了 一 个 ， 那 么 就 (可 选 地 ) 分 割 它 ， 并 将 剩余 的 部 分 插入 到 适当 的 
空闲 链表 中 。 如 果 找 不 到 合适 的 块 ， 那 么 就 搜索 下 一 个 更 大 的 大 小 类 的 空闲 链表 。 如 此 重 
复 ， 直 到 找到 一 个 合适 的 块 。 如 果 空 闲 链表 中 没有 合适 的 块 ， 那 么 就 向 操作 系统 请 求 额 外 
的 堆 内 存 ， 从 这 个 新 的 堆 内 存 中 分 配 出 一 个 块 ， 将 剩余 部 分 放置 在 适当 的 大 小 类 中 。 要 释 
放 一 个 块 ， 我 们 执行 合并 ， 并 将 结果 放置 到 相应 的 空闲 链表 中 。 

分 离 适 配方 法 是 一 种 常见 的 选择 ，C 标准 库 中 提供 的 GNU malloc 包 就 是 采用 的 这 种 
方法 ， 因 为 这 种 方法 既 快 速 ， 对 内 存 的 使 用 也 很 有 效率 。 搜 索 时 间 减 少 了 ， 因 为 搜索 被 限 
制 在 堆 的 某 个 部 分 ， 而 不 是 整个 堆 。 内 存 利用 率 得 到 了 改善 ， 因 为 有 一 个 有 趣 的 事实 : 对 
分 离 空 闲 链表 的 简单 的 首次 适 配 搜索 ， 其 内 存 利用 率 近似 于 对 整个 堆 的 最 佳 适 配 搜索 的 内 
存 利用 率 。 

3. 伙伴 系统 

伙伴 系统 (buddy system) 是 分 离 适 配 的 一 种 特例 ， 其 中 每 个 大 小 类 都 是 2 的 矫 。 基 本 
的 思路 是 假设 一 个 堆 的 大 小 为 2 个 字 ， 我 们 为 每 个 块 大 小 站 维护 一 个 分 离 空 闲 链表 ， 其 
中 0<km。 请 求 块 大 小 向 上 舍 入 到 最 接近 的 2 的 需 。 最 开始 时 ， 只 有 一 个 大 小 为 2" 个 字 
的 空闲 块 。 

为 了 分 配 一 个 大 小 为 2* 的 块 ， 我 们 找到 第 一 个 可 用 的 、 大 小 为 2 的 块 ， 其 中 <5 委 mn。 
如 果 ;二 &， 那 么 我 们 就 完成 了 。 否 则 ， 我 们 递归 地 二 分 割 这 个 块 ， 直 到 ;一 &。 当 我 们 进行 这 
样 的 分 割 时 ， 每 个 剩 下 的 半 块 (也 叫做 伙伴 ) 被 放置 在 相应 的 空闲 链表 中 。 要 释放 一 个 大 小 为 
2 的 抉 ， 我 们 继续 合并 空闲 的 伙伴 。 当 遇 到 一 个 已 分 配 的 伙伴 时 ， 我 们 就 停止 合并 。 

关于 伙伴 系统 的 一 个 关键 事实 是 ， 给 定 地 址 和 块 的 大 小 ， 很 容易 计算 出 它 的 伙伴 的 地 
址 。 例 如 ， 一 个 块 ， 大 小 为 32 字 节 ， 地 址 为 : 

00000 
它 的 伙伴 的 地 址 为 
ZZZ…Z10000 
换 名 话说 ， 一 个 块 的 地 址 和 它 的 伙伴 的 地 址 只 有 一 位 不 相同 。 

伙伴 系统 分 配器 的 主要 优点 是 它 的 快速 搜索 和 快速 合并 。 主 要 缺点 是 要 求 块 大 小 为 2 
的 过 可 能 导致 显著 的 内 部 碎片 。 因 此 ， 伙 伴 系统 分 配器 不 适合 通用 目的 的 工作 负载 。 然 
而 ， 对 于 某 些 特定 应 用 的 工作 负载 ， 其 中 块 大 小 预先 知道 是 2 的 宕 ,伙伴 系统 分 配器 就 很 
有 吸引 力 了 。 


9. 10 垃圾 收集 


在 诸如 C malloc 包 这 样 的 显 式 分 配器 中 ， 应 用 通过 调用 malloc 和 free 来 分 配 和 释 
放 堆 块 。 应 用 要 负责 释放 所 有 不 再 需要 的 已 分 配 块 。 

未 能 释放 已 分 配 的 块 是 一 种 常见 的 编程 错误 。 例 如 ， 考 虑 下 面 的 C 函数 ， 作 为 处 理 的 
一 部 分 ， 它 分 配 一 块 临 时 存储 : 
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void garbage() 
t 


int *p = (int *)Malloc(15213); 


Nm 和 wmwN 一 


return; /* Array P is garbage at this point */ 
} 

因为 程序 不 再 需要 p， 所 以 在 garbage 返回 前 应 该 释放 p。 不 幸 的 是 ， 程 序 员 忘 了 释 
放 这 个 块 。 它 在 程序 的 生命 周期 内 都 保持 为 已 分 配 状态 ， 毫 无 必要 地 占用 着 本 来 可 以 用 来 
满足 后 面 分 配 请 求 的 堆 空间 。 

垃圾 收集 器 (garbage collector) 是 一 种 动态 内 存 分 配器 ， 它 自动 释放 程序 不 再 需要 的 
已 分 配 块 。 这 些 块 被 称 为 垃圾 (garbage)( 因 此 术语 就 称 之 为 垃圾 收集 器 )。 自 动 回收 堆 存 
储 的 过 程 叫做 垃圾 收集 (garbage collection) 。 在 一 个 支持 垃圾 收集 的 系统 中 ， 应 用 显 式 分 
配 堆 块 ， 但 是 从 不 显示 地 释放 它们 。 在 C 程序 的 上 下 文中 ， 应 用 调用 malloc， 但 是 从 不 
调用 free。 反 之 ， 垃 圾 收集 器 定期 识别 垃圾 块 ， 并 相应 地 调用 free， 将 这 些 块 放 回 到 空 
闲 链表 中 。 

垃圾 收集 可 以 追溯 到 John McCarthy 在 20 世纪 60 年 代 早期 在 MIT 开发 的 Lisp 系统 。 
它 是 诸如 Java、ML、Perl 和 Mathematica 等 现代 语言 系统 的 一 个 重要 部 分 ， 而 且 它 仍然 
是 一 个 重要 而 活跃 的 研究 领域 。 有 关 文 献 描述 了 大 量 的 垃圾 收集 方法 ， 其 数量 令 人 吃惊 。 
我 们 的 讨论 局 限于 McCarthy 独创 的 Mark&Sweep( 标 记 & 清除 ) 算 法 ， 这 个 算法 很 有 趣 ， 
因为 它 可 以 建立 在 已 存在 的 malloc 包 的 基础 之 上 ， 为 C 和 C++ 程序 提供 垃圾 收集 。 


9. 10.1 垃圾 收集 器 的 基本 知识 


垃圾 收集 器 将 内 存 视 为 一 张 有 向 可 达 图 (reachability graph)， 其 形式 如 图 9-49 所 示 。 
该 图 的 节点 被 分 成 一 组 根 节点 (root node) 和 一 组 堆 节 点 (heap node)。 每 个 堆 节 点 对 应 于 
堆 中 的 一 个 已 分 配 块 。 有 向 边 p>g 意味 着 块 p 中 的 某 个 位 置 指向 块 g 中 的 某 个 位 置 。 根 
节点 对 应 于 这 样 一 种 不 在 堆 中 的 位 置 ， 它 们 中 包含 指向 堆 中 的 指针 。 这 些 位 置 可 以 是 寄存 
器 、 栈 里 的 变量 ， 或 者 是 虚拟 内 存 中 读 写 数据 区 域内 的 全 局 变量 。 


〇 可 达 的 


不 可 达 的 
ec le i 


图 9-49 垃圾 收集 器 将 内 存 视 为 一 张 有 向 图 


当 存 在 一 条 从 任意 根 节点 出 发 并 到 达 之 的 有 向 路 径 时 ， 我 们 说 节点 p 是 可 达 的 
(reachable)。 在 任何 时 刻 ， 不 可 达 节 点 对 应 于 垃圾 ， 是 不 能 被 应 用 再 次 使 用 的 。 垃 圾 收集 
器 的 角色 是 维护 可 达 图 的 某 种 表示 ， 并 通过 释放 不 可 达 节 点 且 将 它们 返回 给 空闲 链表 , 来 
定期 地 回收 它们 。 

像 ML 和 Java 这 样 的 语言 的 垃圾 收集 器 ， 对 应 用 如 何 创建 和 使 用 指针 有 很 严格 的 控 
制 ， 能 够 维护 可 达 图 的 一 种 精确 的 表示 ， 因 此 也 就 能 够 回收 所 有 垃圾 。 然 而 ， 诸 如 C 和 
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C++ 这 样 的 语言 的 收集 器 通常 不 能 维持 可 达 图 的 精确 表示 。 这 样 的 收集 器 也 叫做 保守 的 
垃圾 收集 器 (conservative garbage collector) 。 从 某 种 意义 上 来 说 它们 是 保守 的 ， 即 每 个 可 
达 块 都 被 正确 地 标记 为 可 达 了 ， 而 一 些 不 可 达 节 点 却 可 能 被 错误 地 标记 为 可 达 。 

收集 器 可 以 按 需 提供 它们 的 服务 ， 或 者 它们 可 以 作为 一 个 和 应 用 并 行 的 独立 线程 ， 不 
断 地 更 新 可 达 图 和 回收 垃圾 。 例 如 ， 考 虑 如 何 将 一 个 C 程序 的 保守 的 收集 器 加 入 到 已 存在 
的 malloc 包 中 ， 如 图 9-50 所 示 。 


动态 内 存 分 配器 





收集 器 


和 


图 9-50 将 一 个 保守 的 垃圾 收集 器 加 入 到 C 的 malloc 包 中 


论 何 时 需要 堆 空 间 时 ， 应 用 都 会 用 通常 的 方式 调用 malloc。 如 果 malloc 找 不 到 一 

闲 块 ， 那 么 它 就 调用 垃圾 收集 器 ， 希 望 能 够 回收 一 些 培 改 到 空闲 链表 。 收 集 器 

Os 并 通过 调用 free 函数 将 它们 返回 给 堆 。 关 键 的 思 ee 

调用 free。 当 对 收集 器 的 调用 返回 时 ，malloc 重 试 ， 试 图 发 现 一 个 合适 的 空闲 块 。 如 果 

还 是 失败 了 ， 那 么 它 就 会 向 操作 系统 要 求 额外 的 内 存 。 最 后 ， 0 一 个 指向 请 求 
块 的 指针 (如 果 成 功 ) 或 者 返回 一 个 空 指针 (如 果 不 成 功 ) 。 


9. 10.2 ”Mark&Sweep 垃圾 收集 器 


Mark& Sweep 垃圾 收集 器 由 标记 (mark) 阶 段 和 清除 (sweep) 阶 段 组 成 ， 标 记 阶 段 标记 
出 根 节 点 的 所 有 可 达 的 和 已 分 配 的 后 继 ， 而 后 面 的 清除 阶段 释放 每 个 未 被 标记 的 已 分 配 
块 。 块 头 部 中 空闲 的 低位 中 的 一 位 通常 用 来 表示 这 个 块 是 否 被 标记 了 。 

我 们 对 Mark&Sweep 的 描述 将 假设 使 用 下 列 函数 ， 其 中 ptr 定义 为 typedef void *ptr: 

.@ ptr isPtr (ptr p)。 如 果 p 指 向 一 个 已 分 配 块 中 的 某 个 字 ， 那 么 就 返回 一 个 指向 

这 个 块 的 起 始 位 置 的 指针 bp。 否 则 返回 NULL。 

e@ int plockMarked (ptr b)。 如 果 块 b 是 已 标记 的 ， 那 么 就 返回 true。 

e int blockAllocated (ptr b)。 如 果 块 b 是 已 分 配 的 ， 那 么 就 返回 true。 

e void markBlock (ptr b)。 标 记 块 b。 

e int length (b)。 返 回 块 b 的 以 字 为 单位 的 长 度 ( 不 包括 头 部 ) 。 

@ void unmarkBlock (ptr b)。 将 块 b 的 状态 由 已 标记 的 改 为 未 标记 的 。 

@ ptr nextBlock (ptr b) 。 返 回 堆 中 块 b 的 后 继 。 

标记 阶段 为 每 个 根 节点 调用 一 次 图 9-51a 所 示 的 mark 函数 。 如 果 p 不 指向 一 个 已 分 
配 并 且 未 标记 的 堆 块 ，mark 函数 就 立即 返回 。 否 则 ， 它 就 标记 这 个 块 ， 并 对 块 中 的 每 个 
字 递 归 地 调用 它 自己 。 每 次 对 mark 函数 的 调用 都 标记 某 个 根 节点 的 所 有 未 标记 并 且 可 达 
的 后 继 节 点 。 在 标记 阶段 的 末尾 ， 任 何 未 标记 的 已 分 配 块 都 被 认定 为 是 不 可 达 的 ， 是 垃 
圾 ， 可 以 在 清除 阶段 回收 。 

清除 阶段 是 对 图 9-51b 所 示 的 sweep 函数 的 一 次 调用 。sweep 函数 在 堆 中 每 个 块 上 反 
复 循环 ， 释 放 它 所 遇 到 的 所 有 未 标记 的 已 分 配 块 (也 就 是 垃圾 )。 

图 9-52 展示 了 一 个 小 堆 的 Mark&Sweep 的 图 形 化 解释 。 块 边界 用 粗 线条 表示 。 每 个 方 
块 对 应 于 内 存 中 的 一 个 字 。 每 个 块 有 一 个 字 的 头 部 ， 要 么 是 已 标记 的 ， 要么 是 未 标记 的 。 











void mark(ptr p) { void sweep(ptr b, ptr end) { 
if ((b = isPtr(p)) == NULL) while (b < end) { 
return; if (blockMarked(b)) 
if (blockMarked(b)) unmarkBlock(b); 
return; else if (blockAllocated(b)) 


markBlock(b); free(b); 
len = length(b); b = nextBlock(b); 
for (i=0; i < len; i++) } 
mark (b[i]); return; 
return; 上 











a) mark 函数 b) sweepP 函数 
图 9-51 mark 和 sweep 函数 的 伪 代 码 


上 ] 未 标记 的 块头 部 





司 已 标记 的 块头 部 





图 9-52 ”Mark&-Sweep 示例 。 注 意 这 个 示例 中 的 箭头 表示 内 存 引用 ， 而 不 是 空闲 链表 指针 


初始 情况 下 ， 图 9-52 中 的 堆 由 六 个 已 分 配 块 组 成 ， 其 中 每 个 块 都 是 未 分 配 的 。 第 3 
块 包含 一 个 指向 第 1 块 的 指针 。 第 4 块 包含 指向 第 3 块 和 第 6 块 的 指针 。 根 指向 第 4 块 。 
在 标记 阶段 之 后 ， 第 1 块 、 第 3 块 、 第 4 块 和 第 6 块 被 做 了 标记 ， 因 为 它们 是 从 根 节 点 可 
达 的 。 第 2 块 和 第 5 块 是 未 标记 的 ， 因 为 它们 是 不 可 达 的 。 在 清除 阶段 之 后 ， 这 两 个 不 可 
达 块 被 回收 到 空闲 链表 。 


9. 10.3 C 程 序 的 保守 Mark& Sweep 


Mark&Sweep 对 C 程序 的 垃圾 收集 是 一 种 合适 的 方法 ， 因 为 它 可 以 就 地 工作 ， 而 不 
需要 移动 任何 块 。 然 而 ，C 语言 为 isPtr 函数 的 实现 造成 了 一 些 有 趣 的 挑战 。 

第 一 ，C 不 会 用 任何 类 型 信息 来 标记 内 存 位 置 。 因 此 ， 对 isPtr 没有 一 种 明显 的 方式 
来 判断 它 的 输入 参数 p 是 不 是 一 个 指针 。 第 二 ， 即 使 我 们 知道 p 是 一 个 指针 ， 对 isPtr 也 
没有 明显 的 方式 来 判断 p 是 否 指向 一 个 已 分 配 块 的 有 效 载 荷 中 的 某 个 位 置 。 

对 后 一 问题 的 解决 方法 是 将 已 分 配 块 集合 维护 成 一 棵 平衡 二 又 树 ， 这 棵 树 保 持 着 这 样 一 
个 属性 : 左 子 树 中 的 所 有 块 都 放 在 较 小 的 地 址 处 ， 而 右 子 树 中 的 所 有 块 都 放 在 较 大 的 地 址 
处 。 如 图 9-53 所 示 ， 这 就 要 求 每 个 已 分 配 块 的 头 部 里 有 两 个 附加 字段 (Left 和 right)。 每 
个 字段 指向 某 个 已 分 配 块 的 头 部 。isPtr (ptr p) 函数 用 树 来 执行 对 已 分 配 块 的 二 分 查找 。 在 

一 步 中 ， 它 依赖 于 块头 部 中 的 大 小 字段 来 判断 p 是 否 落 在 这 个 块 的 范围 之 内 。 
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已 分 配 块头 部 
se | ven | tie | RR | 
a EE 


图 9-53 一 棵 已 分 配 块 的 平衡 树 中 的 左右 指针 


平衡 树 方法 保证 会 标记 所 有 从 根 节点 可 达 的 节点 ， 从 这 个 意义 上 来 说 它 是 正确 的 。 这 
是 一 个 必要 的 保证 ， 因 为 应 用 程序 的 用 户 当 然 不 会 喜欢 把 他 们 的 已 分 配 块 过 早 地 返回 给 空 
闲 链表 。 然 而 ， 这 种 方法 从 某 种 意义 上 而 言 又 是 保守 的 ， 因 为 它 可 能 不 正确 地 标记 实际 上 
不 可 达 的 块 ， 因 此 它 可 能 不 会 释放 某 些 垃圾 。 虽 然 这 并 不 影响 应 用 程序 的 正确 性 ， 但 是 这 
可 能 导致 不 必要 的 外 部 碎片 。 

C 程序 的 Mark & Sweep 收集 器 必须 是 保守 的 ， 其 根本 原因 是 C 语言 不 会 用 类 型 信息 
来 标记 内 存 位 置 。 因 此 ， 像 int 或 者 float 这 样 的 标量 可 以 伪装 成 指针 。 例 如 ， 假 设 某 
个 可 达 的 已 分 配 块 在 它 的 有 效 载荷 中 包含 一 个 int， 其 值 碰巧 对 应 于 某 个 其 他 已 分 配 块 b 
的 有 效 载荷 中 的 一 个 地 址 。 对 收集 器 而 言 ， 是 没有 办 法 推断 出 这 个 数据 实际 上 是 int 而 不 
是 指针 。 因 此 ， 分 配器 必须 保守 地 将 块 b 标记 为 可 达 ， 尽 管事 实 上 它 可 能 是 不 可 达 的 。 


9. 11 C 程序 中 常见 的 与 内 存 有 关 的 错误 


对 C 程序 员 来 说 ， 管 理 和 使 用 虚拟 内 存 可 能 是 个 困难 的 、 容 易 出 错 的 任务 。 与 内 存 有 
关 的 错误 属于 那些 最 令 人 惊 丽 的 错误 ， 因 为 它们 在 时 间 和 空间 上 ， 经 常 在 距 错 误 源 一 段 距 
离 之 后 才 表 现 出 来 。 将 错误 的 数据 写 到 错误 的 位 置 ， 你 的 程序 可 能 在 最 终 失 败 之 前 运行 了 
好 几 个 小 时 ， 且 使 程序 中 止 的 位 置 距离 错误 的 位 置 已 经 很 远 了 。 我 们 用 一 些 常见 的 与 内 存 
有 关 错 误 的 讨论 ， 来 结束 对 虚拟 内 存 的 讨论 。 


9. 11.1 间接 引用 坏 指 针 


正如 我 们 在 9. 7. 2 节 中 学 到 的 ， 在 进程 的 虚拟 地 址 空间 中 有 较 大 的 洞 ， 没 有 映射 到 任何 有 
意义 的 数据 。 如 果 我 们 试图 间接 引用 一 个 指向 这 些 洞 的 指针 ， 那 么 操作 系统 就 会 以 段 异常 中 止 
程序 。 而 且 ， 虚 拟 内 存 的 某 些 区 域 是 只 读 的 。 试 图 写 这 些 区 域 将 会 以 保护 异常 中 止 这 个 程序 。 

间接 引用 坏 指针 的 一 个 常见 示例 是 经 典 的 scanf 错误 。 假 设 我 们 想 要 使 用 scanf 从 
stdin 读 一 个 整数 到 一 个 变量 。 正 确 的 方法 是 传递 给 scanf 一 个 格式 串 和 变量 的 地 址 : 

scanf ("%d", &val) 
然而 ， 对 于 C 程序 员 初 学 者 而 言 ( 对 有 经 验 者 也 是 如 此 !)， 很 容易 传递 val 的 内 容 ， 而 不 
是 它 的 地 址 : 

scanf ("%d", val) 

在 这 种 情况 下 ，scanf 将 把 val 的 内 容 解释 为 一 个 地 址 ， 并 试图 将 一 个 字 写 到 这 个 位 置 。 
在 最 好 的 情况 下 ， 程 序 立 即 以 异常 终止 。 在 最 糟糕 的 情况 下 ，val 的 内 容 对 应 于 虚拟 内 存 
的 某 个 合法 的 读 / 写 区 域 ， 于 是 我 们 就 覆盖 了 这 块 内 存 ， 这 通常 会 在 相当 长 的 一 段 时 间 以 
后 造成 灾难 性 的 、 令 人 困惑 的 后 果 。 


9. 11.2 读 未 初始 化 的 内 存 


虽然 bss 内 存 位 置 (诸如 未 初始 化 的 全 局 C 变量 ) 总 是 被 加 载 器 初始 化 为 零 ， 但 是 对 于 
堆 内 存 却 并 不 是 这 样 的 。 一 个 常见 的 错误 就 是 假设 堆 内 存 被 初始 化 为 零 : 
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1 /* Return y = Ax */ 

> int *matvec(int **A, int *x, int n) 
和 

4 inb 1 3 

. 

6 int *y = (int *)Malloc(n * sizeof (int)); 
7 

8 for (i = 0; i < n; i++) 

9 for (j = 0; j < n; j++) 

10 y[i] += A[i] [j] * x[j]; 
11 return y; 

12 3} 


在 这 个 示例 中 ， 程 序 员 不 正确 地 假设 向 量 y 被 初始 化 为 零 。 正 确 的 实现 方式 是 显 式 地 将 
y[i] 设 置 为 零 ， 或 者 使 用 calloc。 


9. 11.3 人 允许 栈 缓冲 区 溢出 


正如 我 们 在 3. 10. 3 节 中 看 到 的 ， 如 果 一 个 程序 不 检查 输入 串 的 大 小 就 写 和 人 栈 中 的 目 
标 缓冲 区 ， 那 么 这 个 程序 就 会 有 缓冲 区 溢出 错误 (buffer overflow bug)。 例 如 ， 下 面 的 函 
数 就 有 缓冲 区 溢出 错误 ， 因 为 gets 函数 复制 一 个 任意 长 度 的 串 到 缓冲 区 。 为 了 纠正 这 个 
错误 ， 我 们 必须 使 用 fgets 函数 ， 这 个 函数 限制 了 输入 串 的 大 小 : 


void bufoverflow() 


1 

2 攻 

3 char buf [64]; 

4 

$ gets(buf); /* Here is the stack buffer overflow bug */ 
6 return; 

FF 才 


9.11.4 假设 指针 和 它们 指向 的 对 象 是 相同 大 小 的 
一 种 常见 的 错误 是 假设 指向 对 象 的 指针 和 它们 所 指向 的 对 象 是 相同 大 小 的 : 


1 /* Create an nxm array */ 

2 int **makeArrayi(int n, int m) 

3 { 

4 int i 

$s int **A = (int **)Malloc(n * sizeof (int)); 
6 

7 for (i = 0; i < Di i++) 

8 A[i] = (int *)Malloc(m * sizeof (int)); 
9 return A; 

10 Bs 


这 里 的 目的 是 创建 一 个 由 nn 个 指针 组 成 的 数组 ， 每 个 指针 都 指向 一 个 包含 m 个 int 的 数 
组 。 然 而 ， 因 为 程序 员 在 第 5 行将 sizeof (int *) 写 成 了 sizeof (int)， 代 码 实 际 上 创建 
的 是 一 个 int 的 数组 。 

这 段 代 码 只 有 在 int 和 指向 int 的 指针 大 小 相同 的 机 器 上 运行 良好 。 但 是 ， 如 果 我 们 
在 像 Core i7 这 样 的 机 器 上 运行 这 段 代码 ， 其 中 指针 大 于 int， 那 么 第 7 行 和 第 8 行 的 循环 将 
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写 到 超出 A 数组 结尾 的 地 方 。 因 为 这 些 字 中 的 一 个 很 可 能 是 已 分 配 块 的 边界 标记 脚 部 ， 所 以 
我 们 可 能 不 会 发 现 这 个 错误 ， 直 到 在 这 个 程序 的 后 面 很 久 释 放 这 个 块 时 ， 此 时 ， 分 配器 中 的 
合并 代码 会 戏剧 性 地 失败 ， 而 没有 任何 明显 的 原因 。 这 是 “在 远 处 起 作用 (action at dis- 
tance)” 的 一 个 阴险 的 示例 ， 这 类 “在 远 处 起 作用 ”是 与 内 存 有 关 的 编程 错误 的 典型 情况 。 


9.11.5 造成 错位 错误 
错位 (off-by-one) 错 误 是 另 一 种 很 常见 的 造成 覆盖 错误 的 来 源 : 


1 /* Create an nxm array */ 

2 int **makeArray2(int n, int m) 

3 区 

4 nt 13 

5 int **A = (int **)Malloc(n * sizeof(int *)); 
6 

7 for (i = 0; i <= n; i++) 

8 ~ A[i] = (int *)Malloc(m * sizeof (int)); 

9 return A; 

LN 


这 是 前 面 一 节 中 程序 的 另 一 个 版 本 。 这 里 我 们 在 第 5 行 创建 了 一 个 个 元 素 的 指针 数 
组 ， 但 是 随后 在 第 7 行 和 第 8 行 试图 初始 化 这 个 数组 的 ?十 1 个 元 素 ， 在 这 个 过 程 中 覆盖 
了 A 数组 后 面 的 某 个 内 存 位 置 。 


9. 11.6 引用 指针 ， 而 不 是 它 所 指向 的 对 象 


如 果 不 太 注意 C 操作 符 的 优先 级 和 结合 性 ， 我 们 就 会 错误 地 操作 指针 ， 而 不 是 指针 所 
指向 的 对 象 。 比 如 ， 考 虑 下 面 的 函数 ， 其 目的 是 删除 一 个 有 *size 项 的 二 又 堆 里 的 第 一 
项 ， 然 后 对 剩 下 的 *size-l 项 重新 建 堆 : 


int *binheapDelete(int **binheap, int *size) 


1 

多 所 

3 int *packet = binheap[0]; 

4 

5 binheap[0] = binheap[*size - 1]; 

6 *size--; /* This should be (*size)-— */ 
7 heapify(binheap, *size, 0); 

8 return(packet); 

9 省 


在 第 6 行 ， 目 的 是 减少 size 指针 指向 的 整数 的 值 。 然 而 ， 因 为 一 元 运算 符 一 一 和 x 
的 优先 级 相同 ， 从 右 向 左 结合 ， 所 以 第 6 行 中 的 代码 实际 减少 的 是 指针 自己 的 值 ， 而 不 是 
它 所 指向 的 整数 的 值 。 如 果 幸 运 地 话 ， 程 序 会 立即 失败 ; 但 是 更 有 可 能 发 生 的 是 ， 当 程序 
在 执行 过 程 后 很 久 才 产 生出 一 个 不 正确 的 结果 时 ， 我 们 只 有 一 头 的 雾 水 。 这 里 的 原则 是 当 
你 对 优先 级 和 结合 性 有 疑问 的 时 候 ， 就 使 用 括号 。 比 如 ， 在 第 6 行 ， 我 们 可 以 使 用 表达 式 
(*size)--， 清 晰 地 表明 我 们 的 意图 。 


9. 11.7 误解 指针 运算 


另 一 种 常见 的 错误 是 忘记 了 指针 的 算术 操作 是 以 它们 指向 的 对 象 的 大 小 为 单位 来 进行 
的 ， 而 这 种 大 小 单位 并 不 一 定 是 字 贡 。 例 如 ， 下 面 函 数 的 目的 是 扫描 一 个 int 的 数组 ， 并 
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返回 一 个 指针 ， 指 向 val 的 首次 出 现 : 


i int *search(int *p, int val) 

2 未 

3 while (*p && *p != val) 

4 p += sizeof(int); /* Should be p++ */ 
3 return p; 

6 才 


然而 ， 因 为 每 次 循环 时 ， 第 4 行 都 把 指针 加 了 4( 一 个 整数 的 字 节 数 ) ， 函 数 就 不 正确 地 扫 
描 数组 中 每 4 个 整数 。 
9. 11.8 引用 不 存在 的 变 


a 

之 

没有 太 多 经 验 的 C 程序 
所 示 


量 
员 不 理解 栈 的 规则 ， 有 时 会 引用 不 再 合法 的 本 地 变量 ， 如 下 列 


int *stackref () 
六 


int val; 


return &val; 
} 

这 个 函数 返回 一 个 指针 (比如 说 是 p)， 指 向 栈 里 的 一 个 局 部 变量 ， 然 后 弹出 它 的 栈 
帧 。 尽 管 p 仍然 指向 一 个 合法 的 内 存 地 址 ， 但 是 它 已 经 不 再 指向 一 个 合法 的 变量 了 。 当 以 
后 在 程序 中 调用 其 他 函数 时 ， 内 存 将 重用 它们 的 栈 帧 。 再 后 来 ， 如 果 程 序 分 配 某 个 值 给 
*p， 那 么 它 可 能 实际 上 正在 修改 另 一 个 函数 的 栈 帧 中 的 一 个 条 目 ， 从 而 潜在 地 带 来 灾难 性 
的 、 令 人 困惑 的 后 果 。 


1 
3 
4 
5 
6 


9.11.9 引用 空闲 堆 块 中 的 数据 


一 个 相似 的 错误 是 引用 已 经 被 释放 了 的 堆 块 中 的 数据 。 例 如 ， 考 虑 下 面 的 示例 ， 这 个 示例 
在 第 6 行 分 配 了 一 个 整数 数组 x， 在 第 10 行 中 先 释 放 了 块 x， 然 后 在 第 14 行 中 又 引用 了 它 : 


int *heapref (int n, int m) 


1 

2 

3 int 1; 

4 int *x, *y; 

5 

6 x = (int *)Malloc(n * sizeof (int)); 
2 

8 NM Other calls to malloc and free go here 
号 

10 free (x) ; 

EA 

12 y = (int *)Malloc(m * sizeof (int)); 
13 for (i = 0; i < m; i++) 

14 y[i] = x[i]++; /* Oops! x[i] is a word in a free block */ 
is 

16 return y; 


侈 小 
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取决 于 在 第 6 行 和 第 10 行 发 生 的 malloc 和 free 的 调用 模式 ， 当 程序 在 第 14 行 引用 
x[i] 时 ， 数 组 x 可 能 是 某 个 其 他 已 分 配 堆 块 的 一 部 分 了 ， 因 此 其 内 容 被 重 写 了 。 和 其 他 许 
多 与 内 存 有 关 的 错误 一 样 ， 这 个 错误 只 会 在 程序 执行 的 后 面 ， 当 我 们 注意 到 y 中 的 值 被 破 
坏 了 时 才 会 显现 出 来 。 


9.11.10 引起 内 存 泄漏 


内 存 泄漏 是 缓慢 、 隐 性 的 杀手 ， 当 程序 员 不 小 心 忘记 释放 已 分 配 块 ， 而 在 堆 里 创建 了 
垃圾 时 ， 会 发 生 这 种 问题 。 例 如 ， 下 面 的 函数 分 配 了 一 个 堆 块 x， 然 后 不 释放 它 就 返回 : 


void leak(int n) 


1 
2 所 

3 int *x = (int *)Malloc(n * sizeof (int)); 
4 

5 return; /* x is garbage at this point */ 


如 果 经 常 调用 leak， 那 么 渐渐 地 ， 堆 里 就 会 充满 了 垃圾 ， 最 糟糕 的 情况 下 ， 会 占用 
整个 虚拟 地 址 空间 。 对 于 像 守护 进程 和 服务 器 这 样 的 程序 来 说 ， 内 存 泄漏 是 特别 严重 的 ， 
根据 定义 这 些 程序 是 不 会 终止 的 。 


9. 12 小 结 


虚拟 内 存 是 对 主 存 的 一 个 抽象 。 支 持 虚拟 内 存 的 处 理 器 通过 使 用 一 种 叫做 虚拟 寻 址 的 间接 形式 来 引 
用 主 存 。 处 理 器 产生 一 个 虚拟 地 址 ， 在 被 发 送 到 主 存 之 前 ， 这 个 地 址 被 翻译 成 一 个 物理 地 址 。 从 虚拟 地 
址 空间 到 物理 地 址 空间 的 地 址 翻译 要 求 硬件 和 软件 紧密 合作 。 专 门 的 硬件 通过 使 用 页 表 来 翻译 虚拟 地 址 ， 
而 页 表 的 内 容 是 由 操作 系统 提供 的 。 

虚拟 内 存 提 供 三 个 重要 的 功能 。 第 一 ， 它 在 主 存 中 自动 缓存 最 近 使 用 的 存放 磁盘 上 的 虚拟 地 址 空间 
的 内 容 。 虚 拟 内 存 缓存 中 的 块 叫 做 页 。 对 磁盘 上 页 的 引用 会 触发 缺 页 ， 缺 页 将 控制 转移 到 操作 系统 中 的 
一 个 缺 页 处 理 程序 。 缺 页 处 理 程序 将 页 面 从 磁盘 复制 到 主 存 缓存 ， 如 果 必 要 ， 将 写 回 被 驱逐 的 页 。 第 二 ， 
虚拟 内 存 简 化 了 内 存 管理 ， 进 而 又 简化 了 链接 、 在 进程 间 共 享 数 据 、 进 程 的 内 存 分 配 以 及 程序 加 载 。 最 
后 ， 虚 拟 内 存 通 过 在 每 条 页 表 条 目 中 加 入 保护 位 ， 从 而 了 简化 了 内 存 保 护 。 

地 址 翻译 的 过 程 必须 和 系统 中 所 有 的 硬件 缓存 的 操作 集成 在 一 起 。 大 多 数 页 表 条 目 位 于 L1 高 速 组 
存 中 , 但 是 一 个 称 为 TLB 的 页 表 条 目的 片上 高 速 缓存 ， 通 常会 消除 访问 在 LI 上 的 页 表 条 目的 开销 。 

现代 系统 通过 将 虚拟 内 存 片 和 磁盘 上 的 文件 片 关 联 起 来 ， 来 初始 化 虚拟 内 存 片 ， 这 个 过 程 称 为 内 存 
上 映射。 内存 映 射 为 共享 数据 、 创 建新 的 进程 以 及 加 载 程序 提供 了 一 种 高 效 的 机 制 。 应 用 可 以 使 用 mmap 也 
数 来 手工 地 创建 和 删除 虚拟 地 址 空间 的 区 域 。 然 而 ， 大 多 数 程序 依赖 于 动态 内 存 分 配器 ， 例 如 malloc， 
它 管理 虚拟 地 址 空间 区 域内 一 个 称 为 堆 的 区 域 。 动 态 内 存 分 配器 是 一 个 感觉 像 系 统 级 程序 的 应 用 级 程序 ， 
它 直 接 操 作 内 存 ， 而 无 需 类 型 系统 的 很 多 帮助 。 分 配器 有 两 种 类 型 。 显 式 分 配器 要 求 应 用 显 式 地 释放 它 
们 的 内 存 块 。 隐 式 分 配器 (垃圾 收集 器 ) 自 动 释放 任何 未 使 用 的 和 不 可 达 的 块 。 

对 于 C 程序 员 来 说 ， 管 理 和 使 用 虚拟 内 存 是 一 件 困难 和 容易 出 错 的 任务 。 常 见 的 错误 示例 包括 : 间 
接 引 用 坏 指针 ， 读 取 未 初始 化 的 内 存 ， 人 允许 栈 缓冲 区 溢出 ， 假 设 指针 和 它们 指向 的 对 象 大 小 相同 ， 引 用 
指针 而 不 是 它 所 指向 的 对 象 ， 误 解 指 针 运 算 ， 引 用 不 存在 的 变量 ,以 及 引起 内 存 泄漏 。 


参考 文献 说 明 


Kilburn 和 他 的 同事 们 发 表 了 第 一 篇 关于 虚拟 内 存 的 描述 [63]。 体 系 结构 教科 书包 括 关 于 硬件 在 虚拟 
内 存 中 的 角色 的 更 多 细节 [46]。 操 作 系 统 教科 书包 含 关 于 操作 系统 角色 的 更 多 信息 L102，106，113]。 
Bovet 和 Cesati L11] 给 出 了 Linux 虚拟 内 存 系统 的 详细 描述 。Intel 公司 提供 了 IA 处 理 器 上 32 位 和 64 位 
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地 址 翻译 的 详细 文档 [52] 。 

Knuth 在 1968 年 编写 了 有 关内 存 分 配 的 经 典 之 作 [64]。 从 那 以 后 ， 在 这 个 领域 就 有 了 大 量 的 文献 。 
Wilson、Johnstone、Neely 和 Boles 编写 了 一 篇 关于 显 式 分 配器 的 漂亮 综述 和 性 能 评价 的 文章 [118]。 本 
书 中 关于 各 种 分 配器 策略 的 吞吐 率 和 利用 率 的 一 般 评 价 就 引 自 于 他 们 的 调查 。Jones 和 Lins 提供 了 关于 
垃圾 收集 的 全 面 综述 [56]。Kernighan 和 Ritchie [61] 展 示 了 一 个 简单 分 配器 的 完整 代码 ， 这 个 简单 的 分 
配器 是 基于 显 式 空 闲 链表 的 ， 每 个 空闲 块 中 都 有 一 个 块 大 小 和 后 继 指针 。 这 段 代 码 使 用 联合 (union) 来 消 
除 大 量 的 复杂 指针 运算 ， 这 是 很 有 趣 的 ， 但 是 代价 是 释放 操作 是 线性 时 间 ( 而 不 是 常数 时 间 )。Doug Lea 
开发 了 广泛 使 用 的 开源 malloc 包 ， 称 为 dlmalloc [67]。 


家 庭 作 业 

*9.11 在 下 面 的 一 系列 问题 中 ， 你 要 展示 9. 6.4 节 中 的 示例 内 存 系统 如 何 将 虚拟 地 址 翻译 成 物理 地 址 ， 
以 及 如 何 访问 缓存 。 对 于 给 定 的 虚拟 地 址 ， 请 指出 访问 的 TLB 条 目 、 物 理 地 址 ， 以 及 返回 的 缓存 
字 节 值 。 请 指明 是 否 TLB 不 命中 ， 是 否 发 生 了 缺 页 ， 是否 发 生 了 缓存 不 命中 。 如 果 有 缓存 不 命 
中 ， 对 于 “返回 的 缓存 字 节 ”用 “-” 来 表示 。 如 果 有 缺 页 ， 对 于 “PPN” 用 “-” 来 表示 ， 而 C 部 分 和 D 
部 分 就 空 着 。 
虚拟 地 址 : 0x027c 
A. 虚拟 地 址 格式 


PN 
一 wm 


C, 物理 地 址 格式 








D. 物理 地 址 引用 


















ES 
ES 
RE 
一 are ll 
aa ll 


* 9. 12 对 于 下 面 的 地 址 ， 重 复习 题 9. 11 
虚拟 地 址 ; 0x03a9 
A. 虚拟 地 址 格式 
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B. 地 址 翻译 

































TLB 索 引 
TLB 标 记 
TLB 命 中 ? (是 / 否 ) 
缺 页 9 (是 / 否 ) 

















C. 物理 地 址 格式 


D, 物理 地 址 引用 


缓存 标记 
缓存 命中 ? (是 / 否 ) 
返回 的 缓存 字 节 





* 9. 13 对 于 下 面 的 地 址 ， 重 复习 题 9. 11 : 
虚拟 地 址 : 0x0040 
A. 虚拟 地 址 格式 


B. 地 址 翻译 


VPN 
TLB 索 引 

TLB 标 记 

TLB 命 中 ? (是 / 否 ) 
缺 页 ? (是 / 否 ) 
PPN 











C. 物理 地 址 格式 


D. 物理 地 址 引用 
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** 9. 14 


:15 


*9.16 


*# 9., 17 
** 9. 18 


“#9. 19 





缓存 标记 
缓存 命中 ? (是 / 否 ) 
返回 的 缓存 字 节 


假设 有 一 个 输入 文件 hello.txt， 由 字符 串 “Hello，worldlNn? 组 成 ， 编 写 一 个 C 程序 ， 使 用 
mmap 将 hello.txt 的 内 容 改 变 为 “Jello,world!\n”。 

确定 下 面 的 malloc 请 求 序列 得 到 的 块 大 小 和 头 部 值 。 假 设 : 1) 分 配器 保持 双 字 对 齐 ， 使 用 隐 式 空 
闲 链表 ， 以 及 图 9-35 中 的 块 格式 。2) 块 大 小 向 上 含 人 为 最 接近 的 8 字 节 的 倍数 。 


块 大 小 〈 十 进 制 字 节 ) 块头 部 〈 十 六 进 制 ) 
| 


















malloc(11) 


确定 下 面 对 齐 要 求 和 块 格式 的 每 个 组 合 的 最 小 块 大 小 。 假 设 : 显 式 空闲 链表 、 每 个 空闲 块 中 有 四 字 
节 的 pred 和 succ 指针 、 不 允许 有 效 载荷 的 大 小 为 零 ， 并 且 头 部 和 脚 部 存放 在 一 个 四 字 节 的 字 中 。 


| 
| | 
| xm | xm | 

| ea | 


开发 9. 9. 12 节 中 的 分 配器 的 一 个 版 本 ， 执 行 下 一 次 适 配 搜索 ， 而 不 是 首次 适 配 搜索 。 
9. 9. 12 节 中 的 分 配器 要 求 每 个 块 既 有 头 部 也 有 脚 部 ， 以 实现 常数 时 间 的 合并 。 修 改 分 配器 ， 使 得 
空闲 块 需要 头 部 和 脚 部 ， 而 已 分 配 块 只 需要 头 部 。 
下 面 给 出 了 三 组 关于 内 存 管理 和 垃圾 收集 的 陈述 。 在 每 一 组 中 ， 只 有 一 句 陈述 是 正确 的 。 你 的 任 
务 就 是 判断 哪 一 句 是 正确 的 。 
1) a) 在 一 个 伙伴 系统 中 ， 最 高 可 达 50% 的 空间 可 以 因为 内 部 碎片 而 被 浪费 了 。 
b) 首次 适 配 内 存 分 配 算法 比 最 佳 适 配 算法 要 慢 一 些 ( 平 均 而 言 )。 
c) 只 有 当空 闲 链表 按照 内 存 地 址 递增 排序 时 ， 使 用 边界 标记 来 回收 才 会 快速 。 
d) 伙伴 系统 只 会 有 内 部 碎片 ， 而 不 会 有 外 部 碎片 。 
2) a) 在 按照 块 大 小 递减 顺序 排序 的 空闲 链表 上 ， 使 用 首次 适 配 算法 会 导致 分 配 性 能 很 低 ， 但 是 可 
以 避免 外 部 碎片 。 
b) 对 于 最 佳 适 配 方法 ， 空 闲 块 链表 应 该 按照 内 存 地 址 的 递增 顺序 排序 。 
c) 最 佳 适 配方 法 选择 与 请 求 段 匹配 的 最 大 的 空闲 块 。 
d) 在 按照 块 大 小 递增 的 顺序 排序 的 空闲 链表 上 ， 使 用 首次 适 配 算法 与 使 用 最 佳 适 配 算法 等 价 。 
3) Mark&Sweep 垃圾 收集 器 在 下 列 哪 种 情况 下 叫做 保守 的 : 
a) 它们 只 有 在 内 存 请 求 不 能 被 满足 时 才 合 并 被 释放 的 内 存 。 
b) 它们 把 一 切 看 起 来 像 指 针 的 东西 都 当做 指针 。 
c) 它们 只 在 内 存 用 尽 时 ， 才 执行 垃圾 收集 。 
d) 它们 不 释放 形成 循环 链表 的 内 存 块 。 
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料 9.20 编写 你 自己 的 malloc 和 free 版 本 ， 将 它 的 运行 时 间 和 空间 利用 率 与 标准 C 库 提 供 的 malloc 版 


9 


9.2 


9 3 


9. 4 


本 进行 比较 。 


答案 
这 道 题 让 你 对 不 同 地 址 空间 的 大 小 有 了 些 了 解 。 曾 几何 时 ， 一 个 32 位 地 址 空间 看 上 去 似乎 是 无 法 
想象 的 大 。 但 是 ， 现 在 有 些 数据 库 和 科学 应 用 需要 更 大 的 地 址 空间 ， 而 且 你 会 发 现 这 种 趋势 会 继 
续 。 在 有 生 之 年 ， 你 可 能 会 抱怨 个 人 电脑 上 那 狭 促 的 64 位 地 址 空间 ! 


虚拟 地 址 位 数 〈z) 虚拟 地 址 数 CN) 最 大 可 能 的 虚拟 地 址 


2 一 1= 255 

2'—1=64K—1 
2*—1=4G-1 
2%—1=256T-1 
24 一 1= 16 384P 一 1 








24= 16 384P 


因为 每 个 虚拟 页 面 是 P=2? 字 节 ， 所 以 在 系统 中 总 共有 2"/2? 二 2" ?个 可 能 的 页 面 ， 其 中 每 个 都 需 


要 一 个 页 表 条 目 (PTE) 。 


4K 
512K 


为 了 完全 掌握 地 址 翻译 ， 你 需要 很 好 地 理解 这 类 问题 。 下 面 是 如 何 解决 第 一 个 子 问题 : 我 们 有 n= 
32 个 虚拟 地 址 位 和 m= 二 24 个 物理 地 址 位 。 页 面 大 小 是 P 王 1KB， 这 意味 着 对 于 VPO 和 PPO， 我 们 
都 需要 logz (1K)==10 位 。( 回 想 一 下 ，VPO 和 PPO 是 相同 的 。) 剩 下 的 地 址 位 分 别 是 VPN 和 PPN。 








13 
论 
11 


做 一 些 这 样 的 手工 模拟 ， 能 很 好 地 巩固 你 对 地 址 翻译 的 理解 。 你 会 发 现 写 出 地 址 中 的 所 有 的 位 ， 然 
后 在 不 同 的 位 字段 上 画 出 方 框 ， 例 如 VPN、TLBI 等 ， 这 会 很 有 帮助 。 在 这 个 特殊 的 练习 中 ， 没 有 
任何 类 型 的 不 命中 : TLB 有 一 份 PTE 的 副本 ， 而 缓存 有 一 份 所 请 求 数据 字 的 副本 。 对 于 命中 和 不 
命中 的 一 些 不 同 的 组 合 ， 请 参见 习题 9. 11、9. 12 和 9. 13。 

A. 00 00071101 0111 


B. 









TLB 索 引 
TLB 标 记 

TLB 命 中 ? 但/ 否 ) 
缺 页 ? 是 / 否 ) 
PPN 





C. 0011 0101 0111 








9.5 


EE 


.| 





Ox3 
CI Ox5 


和 Oxd 
高 速 缓 存 命中 ? (是 / 否 ) 是 
高 速 缓存 字 节 返回 oxla 








解决 这 个 题目 将 帮助 你 很 好 地 理解 内 存 映射 。 请 自己 独立 完成 这 道 题 。 我 们 没有 讨论 open、fstat 
或 者 write 函数 ， 所 以 你 需要 阅读 它们 的 帮助 页 来 看 看 它们 是 如 何 工作 的 。 
ode 


1 #include "csapp.h" 

2 

3 /* 

4 * mmapcopy - uses mmap to copy file fd to stdout 
5 */ 

6 void mmapcopy(int fd, int size) 

”六 

8 char *bufp; /* ptr to memory-mapped VM area */ 
9 

10 bufp = Mmap(NULL, size, PROT_READ, MAP_PRIVATE, fd, 0); 
从 Write(1, bufp, size); 

入 return; 

”本 


15  /* mmapcopy driver */ 
16 int main(int argc, char **argv) 


二 

18 struct stat stat 

19 int fd; 

20 

21 /* Check for required command-line argument */ 
22 if (argc != 2) { 

23 printf ("usage: %s <filename>\n", argv[0]); 
24 exit (0); 

25 } 

26 

27 /* Copy the input argument to stdout */ 

28 fd = Open(argv[1], O_RDONLY, 0); 

29 fstat(fd, &stat); 

30 mmapcopy (fd, stat.st_size); 

31 exit (0); 

到 小 


code/vm/mmapcopy.c 


这 道 题 触 及 了 一 些 核心 的 概念 ， 例 如 对 齐 要 求 、 最 小 块 大 小 以 及 头 部 编码 。 确 定 块 大 小 的 一 般 方法 
是 ， 将 所 请 求 的 有 效 载荷 和 头 部 大 小 的 和 舍 人 到 对 齐 要 求 ( 在 此 例 中 是 8 字 节 ) 最 近 的 整数 倍 。 比 
如 ，malloc (1) 请 求 的 块 大 小 是 4 十 1 二 5， 然 后 舍 人 到 8。 而 malloc (13) 请 求 的 块 大 小 是 13 十 4= 
17， 舍 人 到 24。 





块 大 小 (十进制 字 节 )》 块头 部 (十 六 进 制 ) 


malloc(1) 
mallLloc(5) 
malloc (12) 
malloe (1L3) 


最 小 块 大 小 对 内 部 碎片 有 显著 的 影响 。 因 此 ， 理 解 和 不 同 分 配器 设计 和 对 齐 要 求 相 关联 的 最 小 块 大 
小 是 很 好 的 。 很 有 技巧 的 一 部 分 是 ， 要 意识 到 相同 的 块 可 以 在 不 同时 刻 被 分 配 或 者 被 释放 。 因 此 ， 
最 小 块 大 小 就 是 最 小 已 分 配 块 大 小 和 最 小 空闲 块 大 小 两 者 的 最 大 值 。 例 如 ， 在 最 后 一 个 子 问题 中 ， 
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9.8 


8 


最 小 的 已 分 配 块 大 小 是 一 个 4 字 节 头 部 和 一 个 1 字 节 有 效 载 荷 ， 含 人 到 8 字 节 。 而 最 小 空闲 块 的 大 
小 是 一 个 4 字 节 的 头 部 和 一 个 4 字 节 的 脚 部 ， 加 起 来 是 8 字 节 ， 已 经 是 8 的 倍数 ， 就 不 需要 再 伟人 
了 。 所 以 ， 这 个 分 配器 的 最 小 块 大 小 就 是 8 字 节 。 








对 齐 要 求 | 已 分 配 据 空闲 志 | 最 小 块 大 小 ( 字 节 ) 
单字 头 部 和 脚 部 头 部 和 胸部 12 
单字 头 部 , 但 是 没有 胸部 头 部 和 脚 部 8 
双 字 头 部 和 脚 部 头 部 和 脚 部 16 
双 字 头 部 , 但 是 没有 脚 部 头 部 和 脚 部 8 








这 里 没有 特别 的 技巧 。 但 是 解答 此 题 要 求 你 理解 简单 的 隐 式 链表 分 配器 的 剩余 部 分 是 如 何 工作 的 ， 
是 如 何 操作 和 遍历 块 的 。 





code/vm/malloc/mm.c 
1 static void *find_fit(size_t asize) 
六 匠 
3 /* First-fit Search */ 
4 void *bp; 
5 
6 for (bp = heap_listp; GET_SIZE(HDRP(bp)) > 0; bp = NEXT_BLKP(bp)) { 
Fs if (!GET_ALLOC(HDRP (bp)) && (asize <= GET_SIZE(HDRP (bp)))) { 
8 return bp; 
Ey 上 
10 } 
新 return NULL; /* No fit */ 
证 #endif 
13 } 


code/vm/malloc/mm.c 
这 又 是 一 个 帮助 你 熟悉 分 配器 的 热身 练习 。 注 意 对 于 这 个 分 配器 ， 最 小 块 大 小 是 16 字 节 。 如 果 分 


割 后 剩 下 的 块 大 于 或 者 等 于 最 小 块 大 小 ， 那 么 我 们 就 分 割 这 个 块 (第 6 一 10 行 )。 这 里 唯一 有 技巧 的 
部 分 是 要 意识 到 在 移动 到 下 一 块 之 前 (第 8 行 )， 你 必须 放置 新 的 已 分 配 块 (第 6 行 和 第 7 行 )。 


code/vm/malloc/mm.c 
$ static void place(void *bp, size_t asize) 
2 于 
3 size_t csize = GET_SIZE(HDRP (bp)); 
4 
5 if ((csize - asize) >= (2*DSIZE)) { 
6 PUT (HDRP (bp), PACK(asize, 1)); 
PUT(FTRP (bp), PACK(asize, 1)); 
8 bp = NEXT_BLKP (bp); 
9 PUT(HDRP (bp), PACK(csize-asize, 0)); 
10 PUT(FTRP (bp), PACK(csize-asize, 0)); 
11 小 
鹿 else { 
13 PUT(HDRP (bp), PACK(csize, 1)); 
14 PUT(FTRP (bp), PACK(csize, 1)); 
15 } 
16 小 
code/vm/malloc/mm.c 


9. 10 这 里 有 一 个 会 引起 外 部 碎片 的 模式 : 应 用 对 第 一 个 大 小 类 做 大 量 的 分 配 和 释放 请 求 ， 然 后 对 第 二 


个 大 小 类 做 大 量 的 分 配 和 释放 请 求 ， 接 下 来 是 对 第 三 个 大 小 类 做 大 量 的 分 配 和 释放 请 求 ， 以 此 类 
推 。 对 于 每 个 大 小 类 ， 分 配器 都 创建 了 许多 不 会 被 回收 的 存储 器 ， 因 为 分 配器 不 会 合并 ， 也 因为 
应 用 不 会 再 向 这 个 大 小 类 再 次 请 求 块 了 。 


第 三 部 分 


FE A R 让 3 


程序 间 的 交互 和 通信 


我 们 学 习 计 算 机 系统 到 现在 ， 一 直 假 设 程序 是 独立 运行 的 ， 
只 包含 最 小 限度 的 输入 和 输出 。 然 而， 在 现实 世界 里 ， 应 用 程序 
利用 操作 系统 提供 的 服务 来 与 1/O 设备 及 其 他 程序 通信 。 

本 书 的 这 一 部 分 将 使 你 了 解 Unix 操作 系统 提供 的 基本 I/O 服 
务 ， 以 及 如 何 用 这 些 服务 来 构造 应 用 程序 ， 例 如 Web 客户 端 和 服 
务 器 ， 它 们 是 通过 Internet 彼此 通信 的 。 你 将 学 习 编 写 诸 如 Web 
服务 器 这 样 的 可 以 同时 为 多 个 客户 端 提 供 服务 的 并 发 程序 。 编 写 
并 发 应 用 程序 还 能 使 程序 在 现代 多 核 处 理 器 上 执行 得 更 快 。 当 学 
完了 这 个 部 分 ， 你 将 逐渐 变 成 一 个 很 牛 的 程序 员 ， 对 计算 机 系统 
以 及 它们 对 程序 的 影响 有 很 成 熟 的 理解 。 
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输入 /输出 (1/O) 是 在 主 存 和 外 部 设备 (例如 磁盘 驱动 器 、 终 端 和 网 络 ) 之 间 复 制 数据 的 过 
程 。 输 入 操作 是 从 IO 设备 复制 数据 到 主 存 ， 而 输出 操作 是 从 主 存 复制 数据 到 IO 设备 。 

所 有 语言 的 运行 时 系统 都 提供 执行 IO 的 较 高 级 别 的 工具 。 例 如 ，ANSI C 提供 标准 
I/O 库 ， 包含 像 printf 和 scanf 这 样 执行 带 缓冲 区 的 IO 函数 。C++ 语言 用 它 的 重 载 操 
作 符 <<( 输 入 ) 和 >>( 输 出 ) 提 供 了 类 似 的 功能 。 在 Linux 系统 中 ， 是 通过 使 用 由 内 核 提 供 的 
系统 级 Unix 1/O 函数 来 实现 这 些 较 高 级 别 的 I/O 函数 的 。 大 多 数 时 候 ， 高 级 别 I/O 函数 
工作 良好 ， 没 有 必要 直接 使 用 Unix I/O。 那 么 为 什么 还 要 麻烦 地 学 习 Unix 1/O 呢 ? 

@ 了 解 Unix I/O 〇 将 帮助 你 理解 其 他 的 系统 概念 。I/O 是 系统 操作 不 可 或 缺 的 一 部 分 ， 因 

此 ， 我 们 经 常 遇 到 I/O 和 其 他 系统 概念 之 间 的 循环 依赖 。 例 如 ，LO 在 进程 的 创建 和 
执行 中 扮演 着 关键 的 角色 。 反 过 来 ， 进 程 创建 又 在 不 同 进 程 间 的 文件 共享 中 扮演 着 关 
键 角色 。 因 此 ， 要 真正 理解 IO， 你 必须 理解 进程 ， 反 之 亦 然 。 在 对 存储 器 层次 结构 、 
链接 和 加 载 、 进 程 以 及 虚拟 内 存 的 讨论 中 ， 我 们 已 经 接触 了 IO 的 某 些 方面 。 既 然 你 
对 这 些 概 念 有 了 比较 好 的 理解 ， 我 们 就 能 闭合 这 个 循环 ， 更 加 深入 地 研究 IO。 

@ 有 时 你 除了 使 用 Unix I/O 以 外 别 无 选择 。 在 某 些 重要 的 情况 中 ， 使 用 高 级 1/O 函 
数 不 太 可 能 ， 或 者 不 太 合适 。 例 如 ， 标 准 MO 库 没 有 提供 读 取 文件 元 数据 的 方式 ， 
例如 文件 大 小 或 文件 创建 时 间 。 另 外 ，I/O 库 还 存在 一 些 问题 ， 使 得 用 它 来 进行 网 
络 编程 非常 冒险 。 

这 一 章 介 绍 Unix I/O 和 标准 I/O 的 一 般 概念 ， 并 且 向 你 展示 在 C 程序 中 如 何 可 靠 地 
使 用 它们 。 除 了 作为 一 般 性 的 介绍 之 外 ， 这 一 章 还 为 我 们 随后 学 习 网 络 编程 和 并 发 性 奠定 
坚实 的 基础 。 


10:.1 Viix We© 
一 个 Linux 文件 就 是 一 个 m 个 字 节 的 序列 : 
By i Bn 
所 有 的 1/O 设备 (例如 网 络 、 磁 盘 和 终端 ) 都 被 模型 化 为 文件 ， 而 所 有 的 输入 和 输出 都 被 当 
作对 相应 文件 的 读 和 写 来 执行 。 这 种 将 设备 优雅 地 映射 为 文件 的 方式 ， 人 允许 Linux 内 核 引 
出 一 个 简单 、 低 级 的 应 用 接口 ， 称 为 Unix W/O， 这 使 得 所 有 的 输入 和 输出 都 能 以 一 种 统 
一 且 一 致 的 方式 来 执行 : 
e@ 打开 文件 。 一 个 应 用 程序 通过 要 求 内 核 打 开 相 应 的 文件 ， 来 宣告 它 想 要 访问 一 个 
I/O 设备 。 内 核 返回 一 个 小 的 非 负 整 数 ， 叫 做 描述 符 ， 它 在 后 续 对 此 文件 的 所 有 操 
作 中 标识 这 个 文件 。 内 核 记 录 有 关 这 个 打开 文件 的 所 有 信息 。 应 用 程序 只 需 记 住 这 
个 描述 符 。 
e@ Linux shell 创建 的 每 个 进程 开始 时 都 有 三 个 打开 的 文件 ， 标准 输入 (描述 符 为 0) 、 标 准 
输出 (描述 符 为 1) 和 标准 错误 (描述 符 为 2) 。 头 文件 < unistd.h> 定义 了 常量 STDIN_ 
FILENO、STDOUT FILENO 和 STDERR FILENO， 它 们 可 用 来 代替 显 式 的 描述 符 值 。 
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@ 改变 当前 的 文件 位 置 。 对 于 每 个 打开 的 文件 ， 内 核 保持 着 一 个 文件 位 置 k， 初 始 为 
0。 这 个 文件 位 置 是 从 文件 开头 起 始 的 字 节 偏 移 量 。 应 用 程序 能 够 通过 执行 seek 操 
作 ， 显 式 地 设置 文件 的 当前 位 置 为 R。 

@ 读 写 文件 。 一 个 读 操 作 就 是 从 文件 复制 zw 盖 0 个 字 节 到 内 存 ， 从 当前 文件 位 置 & 开 
始 ， 然 后 将 增加 到 十 nx。 给 定 一 个 大 小 为 m 字 节 的 文件 ， 当 & 宇 m 时 执行 读 操作 
会 触发 一 个 称 为 end-of-file(EOF) 的 条 件 ， 应 用 程序 能 检测 到 这 个 条 件 。 在 文件 结 
尾 处 并 没有 明确 的 “EOF 符号 ”。 

类 似 地 ， 写 操作 就 是 从 内 存 复 制 n 二 0 个 字 节 到 一 个 文件 ， 从 当前 文件 位 置 & 
开始 ， 然 后 更 新 &。 

@ 关闭 文件 。 当 应 用 完成 了 对 文件 的 访问 之 后 ， 它 就 通知 内 核 关 闭 这 个 文件 。 作 为 响 
应 ， 内 核 释 放 文件 打开 时 创建 的 数据 结构 ， 并 将 这 个 描述 符 恢复 到 可 用 的 描述 符 池 
中 。 无 论 一 个 进程 因为 何 种 原因 终止 时 ， 内 核 都 会 关闭 所 有 打开 的 文件 并 释放 它们 
的 内 存 资源 。 


10;2 实 件 


每 个 Linux 文件 都 有 一 个 类 型 (type) 来 表明 它 在 系统 中 的 角色 : 
e@ 普通 文件 (regular file) 包 含 任意 数据 。 应 用 程序 常常 要 区 分 文本 文件 (text file) 和 二 
进 制 文件 (binary file)， 文本 文件 是 只 含有 ASCII 或 Unicode 字符 的 普通 文件 ; 二 
进 制 文件 是 所 有 其 他 的 文件 。 对 内 核 而 言 ， 文 本 文件 和 二 进 制 文件 没有 区 别 。 
Linux 文本 文件 包含 了 一 个 文本 行 (text line) 序 列 ， 其 中 每 一 行 都 是 一 个 字符 序列 ， 
以 一 个 新 行 符 (“\ n”) 结 束 。 新 行 符 与 ASCII 的 换行 符 (LF) 是 一 样 的 ， 其 数字 值 为 0x0a。 
@ 目录 (directory) 是 包含 一 组 链接 (link) 的 文件 ， 其 中 每 个 链接 都 将 一 个 文件 名 
(filename) 上 映射 到 一 个 文件 ， 这 个 文件 可 能 是 另 一 个 目录 。 每 个 目录 至 少 含 有 两 个 
条 目 :“. ”是 到 该 目录 自身 的 链接 ， 以及“..” 是 到 目录 层次 结构 ( 见 下 文 ) 中 父 目 
” 录 (parent directory) 的 链接 。 你 可 以 用 mkdir 命令 创建 一 个 目录 ， 用 1s 查看 其 内 
容 ， 用 rmdir 删除 该 目录 。 
@ 套 接 字 (socket) 是 用 来 与 男 一 个 进程 进行 跨 网 络 通信 的 文件 (11. 4 节 )。 
其 他 文件 类 型 包含 命名 通道 (named pipe)、 符 号 链接 (symbolic link)， 以 及 字符 和 块 
设备 (character and block device) ， 这 些 不 在 本 书 的 讨论 范畴 。 
Linux 内 核 将 所 有 文件 都 组 织 成 一 个 目录 层次 结构 (directory hierarchy) ， 由 名 为 /( 斜 
杠 ) 的 根 目录 确定 。 系 统 中 的 每 个 文件 都 是 根 目录 的 直接 或 间接 的 后 代 。 图 10-1 显示 了 
Linux 系统 的 目录 层次 结构 的 一 部 分 。 


bin/ dev/ etc/ home/ MSEY 





bash CEyi group passwd/ droh/ bryant/ include/ bin/ 


hello.c stdio.h sys/ vim 


unistd.h 


图 10-1 Linux 目录 层次 的 一 部 分 。 尾 部 有 和 斜 杠 表示 是 目录 
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作为 其 上 下 文 的 一 部 分 ， 每 个 进程 都 有 一 个 当前 工作 目录 (current working directory) 
来 确定 其 在 目录 层次 结构 中 的 当前 位 置 。 你 可 以 用 cd 命令 来 修改 shell 中 的 当前 工作 
目录 。 
目录 层次 结构 中 的 位 置 用 路 径 名 (pathname) 来 指定 。 路 径 名 是 一 个 字符 串 ， 包 括 一 个 
可 选 斜 枉 ， 其 后 紧 跟 一 系列 的 文件 名 ， 文 件 名 之 间 用 斜 杠 分 隔 。 路 径 名 有 两 种 形式 : 
@ 绝对 路 径 名 (absolute pathname) 以 一 个 斜 杠 开始 ， 表 示 从 根 节点 开始 的 路 径 。 例 
如 ， 在 图 10-1 中 ，hello.c 的 绝对 路 径 名 为 /home/droh/hello.c。 
@ 相对 路 径 名 (relative pathname) 以 文件 名 开始 ， 表 示 从 当前 工作 目录 开始 的 路 径 。 
例如 ， 在 图 10-1 中 ， 如 果 /home/droh 是 当前 工作 目录 ， 那 么 hello.c 的 相对 路 径 
名 就 是 ./hello.c。 反 之 ， 如 果 /home/bryant 是 当前 工作 目录 ， 那 么 相对 路 径 名 
就 是 ../home/droh/hello.c。 


10.3 打开 和 关闭 文件 
进程 是 通过 调用 open 函数 来 打开 一 个 已 存在 的 文件 或 者 创建 一 个 新 文件 的 : 











#include <sys/types.h> 
#include <sys/stat.h> 
#include <fcntl.h> 


int open(char *filename, int flags, mode_t mode); 


返回 : 若 成 功 则 为 新 文件 描述 符 ， 若 出 错 为 一 1。 








open 函数 将 filename 转换 为 一 个 文件 描述 符 ， 并 且 返 回 描述 符 数字 。 返 回 的 描述 符 总 
是 在 进程 中 当前 没有 打开 的 最 小 描述 符 。flags 参数 指明 了 进程 打算 如 何 访问 这 个 文件 : 

e O_RDONLY: 只 读 。 

eO WRONLY: 只 写 。 

e O_RDWR: 可 读 可 写 。 

例如 ， 下 面 的 代码 说 明 如 何以 读 的 方式 打开 一 个 已 存在 的 文件 : 


fd = Open("foo.txt", 0_RDONLY, 0); 


flags 参数 也 可 以 是 一 个 或 者 更 多 位 掩 码 的 或 ， 为 写 提供 给 一 些 额 外 的 指示 : 

e O_CREAT: 如 果 文 件 不 存在 ， 就 创建 它 的 一 个 截断 的 (truncated)( 空 ) 文 件 。 
e。 O_TRUNC: 如 果 文 件 已 经 存在 ， 就 截断 它 。 

e O_APPEND: 在 每 次 写 操 作 前 ,设置 文件 位 置 到 文件 的 结尾 处 。 

例如 ， 下 面 的 代码 说 明 的 是 如 何 打 开 一 个 已 存在 文件 ， 并 在 后 面 添加 一 些 数 据 : 


fd = Open("foo.txt", O_WRONLY|O_APPEND, 0); 


mode 参数 指定 了 新 文件 的 访问 权限 位 。 这 些 位 的 符号 名 字 如 图 10-2 所 示 。 

作为 上 下 文 的 一 部 分 ， 每 个 进程 都 有 一 个 unask， 它 是 通过 调用 umask 函数 来 设置 
的 。 当 进程 通过 带 某 个 mode 参数 的 open 函数 调用 来 创建 一 个 新 文件 时 ， 文件 的 访问 权 
限 位 被 设置 为 mode & ~ umask。 例 如 ， 假 设 我 们 给 定 下 面 的 mode 和 umask 默认 值 : 

#define DEF_MODE S_IRUSR|S_IWUSR|S_IRGRP|S_IWGRP|S_IROTH|S_IWOTH 

#define DEF_UMASK S_IWGRP|S_IWOTH 


接 下 来 ， 下 面 的 代码 片段 创建 一 个 新 文件 ,文件 的 拥有 者 有 读 写 权限 ， 而 所 有 其 他 的 
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用 户 都 有 读 权 限 : 
umask (DEF_UMASK) ; 
fd = Open("foo .txt" ， O_CREAT|O_TRUNC|O_WRONLY, DEF_MODE); 


S IRUSR 使 用 者 (拥有 者 能 够 读 这 个 文件 
S_IWUSR 使 用 者 (拥有 者 ) 能 够 写 这 个 文件 
S_IXUSR 使 用 者 (拥有 者 ) 能 够 执行 这 个 文件 


拥有 者 所 在 组 的 成 员 能 够 读 这 个 文件 


拥有 者 所 在 组 的 成 员 能 够 写 这 个 文件 
拥有 者 所 在 组 的 成 员 能 够 执行 这 个 文件 


S_IROTH 其 他 人 【任何 人 ) 能 够 读 这 个 文件 
S_IWOTH 其 他 人 【任何 人 ) 能 够 写 这 个 文件 
S_IXOTH 其 他 人 《【 任 何人 ) 能够 执行 这 个 文件 











图 10-2 访问 权限 位 。 在 sys/stat.h 中 定义 
最 后 ， 进 程 通过 调用 close 函数 关闭 一 个 打开 的 文件 。 


#include <unistd.h> 


int close(int fd); 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 





关闭 一 个 已 关闭 的 描述 符 会 出 错 。 
| 练习 题 10. 1 下 面 程序 的 输出 是 什么 ? 





#include "csapp.h" 


1 

3 int main() 

4 攻 

5 int fdi, fd2; 
6 

7 

8 

9 


fdl = Open("foo.txt", 0_RDONLY, 0); 
Close(fd1); 
fd2 = Open("baz.txt", 0_RDONLY, 0); 
10 printf ("fd2 = %d\n", fd2); 
11 exit (0); 
12 } 


10.4 读 和 写 文件 
应 用 程序 是 通过 分 别 调用 read 和 write 函数 来 执行 输入 和 输出 的 。 





#include <unistd.h> 





ssize_t read(int fd, void *buf, size_t n); 
返回 : 若 成 功 则 为 读 的 字 节 数 ， 若 EOF 则 为 0， 若 出 错 为 一 1。 

ssize_t write(int fd, const void *buf, size_t n); 
返回 : 若 成 功 则 为 写 的 字 节 数 ， 若 出 错 则 为 一 1。 
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read 图 数 从 描述 符 为 fa 的 当前 文件 位 置 复制 最 多 个 字 节 到 内 存 位 置 buf。 返 回 值 一 1 
表示 一 个 错误 ， 而 返回 值 0 表示 EOF。 否 则 ， 返 回 值 表示 的 是 实际 传送 的 字 节 数量 。 
write 函数 从 内 存 位 置 buf 复制 至 多 ”个 字 节 到 描述 符 fd 的 当前 文件 位 置 。 图 10-3 展 
示 了 一 个 程序 使 用 read 和 write 调用 一 次 一 个 字 节 地 从 标准 输入 复制 到 标准 输出 。 
Od DE 
#include "csapp.h" 


1 

2 

3 int main(void) 

4 攻 

5 Char c; 

6 

7 while(Read(STDIN_FILENO, &c, 1) != 0) 
8 Write(STDOUT_FILENO, &c, 1); 

9 exit (0); 

10 } 


code/io/cpstdin.c 





图 10-3 一 次 一 个 字 节 地 从 标准 输入 复制 到 标准 输出 


通过 调用 lseek 函数 ， 应 用 程序 能 够 显示 地 修改 当前 文件 的 位 置 ， 这 部 分 内 容 不 在 我 
们 的 讲述 范围 之 内 。 


你 可 能 已 经 注意 到 了 ，read 函数 有 一 个 size 七 的 给 入 参数 和 一 个 ssize t 的 返 
回 值 。 那 么 这 两 种 类 型 之 间 有 什么 区 别 呢 ? 在 x86-64 系统 中 ，size 七 被 定义 为 un- 
signed long， 而 ssize t( 有 符号 的 大 小 ) 被 定义 为 long。read 函数 返回 一 个 有 符号 
的 大 小 ， 而 不 是 一 个 无 符号 大 小 ， 这 是 因为 出 错时 它 必 须 返 回 一 1。 有 趣 的 是 ， 返 回 一 
个 一 1 的 可 能 性 使 得 read 的 最 大 值 减 小 了 一 半 。 


在 某 些 情况 下 ，read 和 write 传送 的 字 节 比 应 用 程序 要 求 的 要 少 。 这 些 不 足 值 (short 
count) 不 表示 有 错误 。 出 现 这 样 情况 的 原因 有 : 
@ 读 时 遇 到 EOF。 假 设 我 们 准备 读 一 个 文件 ， 该 文件 从 当前 文件 位 置 开 始 只 含有 20 
多 个 字 节 ， 而 我 们 以 50 个 字 节 的 片 进行 读 取 。 这 样 一 来 ， 下 一 个 read 返回 的 不 足 
值 为 20， 此 后 的 read 将 通过 返回 不 足 值 0 来 发 出 EOF 信号。 
@ 从 终端 读 文本 行 。 如 果 打 开 文 件 是 与 终端 相关 联 的 (如 键盘 和 显示 器 )， 那 么 每 个 
read 图 数 将 一 次 传送 一 个 文本 行 ， 返 回 的 不 足 值 等 于 文本 行 的 大 小 。 
@ 读 和 写 网 络 套 接 字 (socket) 。 如 果 打 开 的 文件 对 应 于 网 络 套 接 字 (11.4 节 )， 那 么 内 
部 缓冲 约束 和 和 较 长 的 网 络 延迟 会 引起 read 和 write 返回 不 足 值 。 对 Linux 管道 
(pipe) 调 用 read 和 write 时 ， 也 有 可 能 出 现 不 足 值 ， 这 种 进程 间 通 信 机 制 不 在 我 
们 讨论 的 范围 之 内 。 
实际 上 ， 除 了 EOF， 当 你 在 读 磁 盘 文 件 时 ， 将 不 会 遇 到 不 足 值 ， 而 且 在 写 磁 盘 文 件 时 ， 
也 不 会 遇 到 不 足 值 。 然 而 ， 如 果 你 想 创 建 健壮 的 (可 靠 的 ) 诸 如 Web 服务 器 这 样 的 网 络 应 用 ， 
就 必须 通过 反复 调用 read 和 write 处 理 不 足 值 ， 直 到 所 有 需要 的 字 节 都 传送 完毕 。 


10.5 用 RIO 包 健壮 地 读 写 
在 这 一 小 节 里 ， 我 们 会 讲述 一 个 IO 包 ， 称 为 RIO(Robust 1/O， 健 壮 的 1/0) 包 , 它 
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会 自动 为 你 处 理 上 文中 所 述 的 不 足 值 。 在 像 网 络 程序 这 样 容 易 出 现 不 足 值 的 应 用 中 ，RIO 
包 提 供 了 方便 、 健 壮 和 高 效 的 IO。RIO 提供 了 两 类 不 同 的 函数 : 
e 无 缓冲 的 输入 输出 函数 。 这 些 函 数 直接 在 内 存 和 文件 之 间 传 送 数据 ， 没 有 应 用 级 组 
冲 。 它 们 对 将 二 进 制 数据 读 写 到 网 络 和 从 网 络 读 写 二 进 制 数 据 尤 其 有 用 。 
® 带 缓冲 的 输入 函数 。 这 些 函 数 允 许 你 高 效 地 从 文件 中 读 取 文本 行 和 二 进 制 数据 ， 这 
些 文件 的 内 容 缓 存在 应 用 级 缓冲 区 内 ， 类 似 于 为 printf 这 样 的 标准 LO 函数 提供 
的 缓冲 区 。 与 [110] 中 讲述 的 带 缓冲 的 I/O 例 程 不 同 ， 带 缓冲 的 RIO 输入 函数 是 线 
程 安 全 的 (12. 7.1 节 )， 它 在 同一 个 描述 符 上 可 以 被 交错 地 调用 。 例 如 ， 你 可 以 从 一 
个 描述 符 中 读 一 些 文本 行 ， 然 后 读 取 一 些 二 进 制 数据 ， 接 着 再 多 读 取 一 些 文本 行 。 
我 们 讲述 RIO 例 程 有 两 个 原因 。 第 一 ， 在 接 下 来 的 两 章 中 ， 我 们 开发 的 网 络 应 用 中 使 用 
了 它们 ; 第 二 ， 通 过 学 习 这 些 例 程 的 代码 ， 你 将 从 总 体 上 对 Unix IO 有 更 深入 的 了 解 。 


10. 5. 1 RIO 的 无 缓冲 的 输入 输出 函数 
通过 调用 rio_readn 和 rio writen 函数 ， 应 用 程序 可 以 在 内 存 和 文件 之 间 直 接 传送 数据 。 





#include "csapp.h" 


ssize_t rio_readn(int fd, void *usrbuf, size_t n); 
ssize_t rio_writen(int fd, void *usrbuf, size_t n); 
返回 : 若 成 功 则 为 传送 的 字 节 数 ， 若 EOF 则 为 0( 只 对 rio_ readn 而 言 )， 若 出 错 则 为 一 1。 








rio_readn 函数 从 描述 符 fa 的 当前 文件 位 置 最 多 传送 个 字 节 到 内 存 位 置 usrbuf。 
类 似 地 ，rio_writen 函数 从 位 置 usrbuf 传送 个 字 节 到 描述 符 f9。rio_read 函数 在 遇 
到 EOF 时 只 能 返回 一 个 不 足 值 。rio_writen 函数 决 不 会 返回 不 足 值 。 对 同一 个 描述 符 ， 
可 以 任意 交错 地 调用 rio readn 和 rio writen。 

图 10-4 显示 了 rio readn 和 rio_writen 的 代码 。 注 意 ， 如 果 rio readn 和 rio_ 
writen 图 数 被 一 个 从 应 用 信号 处 理 程 序 的 返回 中 断 ， 那 么 每 个 函数 都 会 手动 地 重启 read 或 
write。 为 了 尽 可 能 有 较 好 的 可 移植 性 ， 我 们 允许 被 中 断 的 系统 调用 ， 且 在 必要 时 重启 它们 。 


10. 5.2 RIO 的 带 缓冲 的 输入 函数 


假设 我 们 要 编写 一 个 程序 来 计算 文本 文件 中 文本 行 的 数量 ， 该 如 何 来 实现 呢 ? 一 种 方 
法 就 是 用 read 函数 来 一 次 一 个 字 节 地 从 文件 传送 到 用 户 内 存 ， 检 查 每 个 字 节 来 查找 换行 
符 。 这 个 方法 的 缺点 是 效率 不 是 很 高 ， 每 读 取 文件 中 的 一 个 字 节 都 要 求 陷 入 内 核 。 

一 种 更 好 的 方法 是 调用 一 个 包装 函数 (rio readlinepb)， 它 从 一 个 内 部 读 缓冲 区 复制 一 个 
文本 行 ， 当 缓冲 区 变 空 时 ， 会 自动 地 调用 read 重新 填 满 缓冲 区 。 对 于 既 包 含 文本 行 也 包含 二 
进 制 数据 的 文件 (例如 11. 5. 3 节 中 描述 的 HTTP 响应 )， 我 们 也 提供 了 一 个 rio_readn 带 缓冲 
区 的 版 本 ， 叫 做 rio readnb， 它 从 和 rio readlineb 一样 的 读 缓冲 区 中 传送 原始 字 节 。 





#include "csapp.h" 


void rio_readinitb(rio_t *rp, int fd) ; 


ssize_t rio_readlineb(rio_t *rp, void *usrbuf, size_t maxlen); 
ssize_t zio_readnb(rio_t *rp, void *usrbuf, size_t 1n); 
返回 : 若 成 功 则 为 读 的 字 节 数 ， 若 EOF 则 为 0， 若 出 错 则 为 一 1。 
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code/src/csapp.c 
1 ssize_t rio_readn(int fd, void *usrbuf, size_t n) 
有 所 
3 size_t nleft = n; 
4 ssize_t nread; 
5 char *bufp = usrbuf; 
6 
7 while (nleft > 0) { 
8 if ((nread = read(fd, bufp, nleft)) < 0) { 
9 if (errno == EINTR) /* Interrupted by sig handler return */ 
10 nread = 0; /* and call read() again */ 
i else 
12 return -1; /* errno set by read() */ 
广 3 
14 else if (nread == 0) 
15 break; /* EOF */ 
16 nleft -= nread; 
1 bufp += nread; 
18 } 
19 return (n - nleft); /* Return >= 0 */ 
， ， 
code/src/csapp.c 
code/src/csapp.c 
1 ssize_t rio_writen(int fd, void *usrbuf, size_t n) 
室 洽 
3 size_t nleft = n; 
4 ssize_t nwritten; 
5 char *bufp = usrbuf; 
6 
7 while (nleft > 0) { 
8 if ((nwritten = write(fd, bufp, nleft)) <= 0) { 
9 if (errno == EINTR) /* Interrupted by sig handler return */ 
10 nwritten = 0; /* and call write() again */ 
11 else 
12 return -1; /* errno set by write() */ 
bs: } 
14 nleft -= nwritten; 
15 bufp += nwritten; 
16 } 
入 return n; 
18 3 
code/src/csapp.c 


图 10-4 ”rio readn 和 rio writen 函数 


每 打开 一 个 描述 符 ， 都 会 调用 一 次 rio_readinitb 函数 。 它 将 描述 符 fd 和 地 址 rp 
处 的 一 个 类 型 为 rio t 的 读 缓 冲 区 联系 起 来 。 

rio_readlineb 函数 从 文件 rp 读 出 下 一 个 文本 行 ( 包 括 结尾 的 换行 符 )， 将 它 复制 到 
内 存 位 置 usrbuf， 并 且 用 NULL( 零 ) 字 符 来 结束 这 个 文本 行 。rio_readlineb 函数 最 多 
读 maxlen-1 个 字 节 ,余下 的 一 个 字符 留 给 结尾 的 NULL 字符 。 超 过 maxlen-1 字 节 的 文 
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本 行 被 截断 ， 并 用 一 个 NULL 字符 结束 。 

rio_readnb 函数 从 文件 rp 最 多 读 n 个 字 节 到 内 存 位 置 usrbuf。 对 同一 描述 符 ， 对 
rio_ readlineb 和 rio readnb 的 调用 可 以 任意 交叉 进行 。 然 而 ， 对 这 些 带 缓冲 的 函数 的 
调用 却 不 应 和 无 缓冲 的 rio readn 函数 交叉 使 用 。 

在 本 书 剩 下 的 部 分 中 将 给 出 大 量 的 RIO 函数 的 示例 。 图 10-5 展示 了 如 何 使 用 RIO 函 
数 来 一 次 一 行 地 从 标准 输入 复制 一 个 文本 文件 到 标准 输出 。 


code/io/cpfile.c 
1 #include "csapp.h" 
2 
3 int main(int argc, char **argv) 
a 
int n; 
6 Trio_t rio; 
7 char buf [MAXLINE]; 
8 
9 Rio_readinitb(&rio, STDIN_FILENO); 
10 while((n = Rio_readlineb(&rio, buf, MAXLINE)) != 0) 
11 Rio_writen (STDOUT_FILENO, buf, n); 
入 小 
code/io/cpfile.c 


图 10-5 从 标准 输入 复制 一 个 文本 文件 到 标准 输出 
图 10-6 展示 了 一 个 读 缓冲 区 的 格式 ， 以 及 初始 化 它 的 rio_readinitb 函数 的 代码 。 
rio_readinitb 函数 创建 了 一 个 空 的 读 缓 冲 区 ， 并 且 将 一 个 打开 的 文件 描述 符 和 这 个 组 
冲 区 联系 起 来 。 


code/include/csapp.h 
1 #define RIO_BUFSIZE 8192 
2 * typedef struct { 
3 int rio_fd; /* Descriptor for this internal buf */ 
4 int rio_cnt; /* Unread bytes in internal buf */ 
5 char *rio_bufptr; /* Next unread byte in internal buf */ 
6 char rio_buf [RIO_BUFSIZE]; /* Internal buffer */ 
7 } rio_t; 
code/include/csapp.h 
code/src/csapp.c 
1 void rio_readinitb(rio_t *rp, int fd) 
-1 
3 rp->rio_fd = fd; 
4 rp->rio_cnt = 0; 
5 rp->rio_bufptr = rp->rio_buf; 
-i 
code/src/csapp.c 


图 10-6 ”一 个 类 型 为 rio t 的 读 缓冲 区 和 初始 化 它 的 rio_readinitb 函数 


RIO 读 程 序 的 核心 是 图 10-7 所 示 的 rio_read 函数 。rio_read 函数 是 Linux read 函 
数 的 带 缓冲 的 版 本 。 当 调用 rio_read 要 求 读 n 个 字 节 时 ， 读 缓冲 区 内 有 rp->rio_cnt 
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个 未 读 字 节 。 如 果 缓 冲 区 为 空 ， 那 么 会 通过 调用 read 再 填 满 它 。 这 个 read 调用 收 到 一 
个 不 足 值 并 不 是 错误 ， 只 不 过 读 缓冲 区 是 填充 了 一 部 分 。 一 旦 缓冲 区 非 空 ，rio_read 就 
从 读 缓冲 区 复制 n 和 rp->rio_cnt 中 较 小 值 个 字 节 到 用 户 缓冲 区 ， 并 返回 复制 的 字 节 数 。 


code/src/csapp.c 
1 static ssize_t rio_read(rio_t *rp, char *usrbuf, size_t D) 
2 
3 int cnt; 
4 
5 while (rp->rio_cnt <= 0) { /* Refill if buf is empty */ 
6 rp->rio_cnt = read(rp->rio_fd, rp->rio_buf, 
7 sizeof (rp->rio_buf)); 
8 if (rp->rio_cnt < 0) { 
9 if (errno != EINTR) /* Interrupted by sig handler return */ 


10 return -1; 


11 

12 else if (rp->rio_cnt == 0) /* EOF */ 

13 return 0; 

14 else 

15 rp->rio_bufptr = rp->rio_buf; /* Reset buffer ptr */ 
16 } 

衣 

18 /* Copy min(n, rp->rio_cnt) bytes from internal buf to user buf */ 
19 cnt = Di; 

20 if (rp->rio_cnt < n) 

21 cnt = rp->rio_cnt; 

22 memcpy (usrbuf, rp->rio_bufptr, cnt); 

23 rp->rio_bufptr += cnt; 

24 rp->rio_cnt -= cnt; 

25 return cnt ; 

26 小 


code/src/csapp.c 
图 10-7 内 部 的 rio_read 函数 


对 于 一 个 应 用 程序 ，rio read 函数 和 Linux read 函数 有 同样 的 语义 。 在 出 错时 ， 它 
返回 值 一 1， 并 且 适 当地 设置 errno。 在 EOF 时 ， 它 返回 值 0。 如 果 要 求 的 字 节 数 超过 了 
读 缓冲 区 内 未 读 的 字 节 的 数量 ， 它 会 返回 一 个 不 足 值 。 两 个 函数 的 相似 性 使 得 很 容易 通过 
用 rio_read 代替 read 来 创建 不 同类 型 的 带 缓冲 的 读 函 数 。 例 如 ， 用 rio_read 代替 
read， 图 10-8 中 的 rio_readnb 函数 和 rio readn 有 相同 的 结构 。 相 似 地 ， 图 10-8 中 的 
rio_readlineb 程序 最 多 调用 maxlen-1 次 rio read。 每 次 调用 都 从 读 缓 冲 区 返回 一 个 
字 节 ， 然 后 检查 这 个 字 节 是 否 是 结尾 的 换行 符 。 


| 旁 注 | RIO 包 的 起 源 

RIO 函数 的 灵感 来 自 于 W. Richard Stevens 在 他 的 经 典 网 络 编程 作品 [110] 中 描述 
的 readline、readn 和 writen 辑 数 。rio readn 和 rio writen 函数 与 Stevens 的 
readn 和 writen 吕 数 是 一 样 的 。 然 而 ，Stevens 的 readline 函数 有 一 些 局 限 性 在 RIO 
中 得 到 了 纠正 。 第 一 ， 因 为 readline 是 带 缓冲 的 ， 而 readn 不 带 ， 所 以 这 两 个 函数 不 
能 在 同一 描述 符 上 一 起 使 用 。 第 二 ， 因 为 它 使 用 一 个 static 缓冲 区 ，Stevens 的 readline : 
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函数 不 是 线程 安全 的 ， 这 就 要 求 Stevens 引入 一 个 不 同 的 线程 安全 的 版 本 ， 称 为 read- 
line r。 我 们 已 经 在 rio readlineb 和 rio_readnb 函数 中 修改 了 这 两 个 缺陷 ， 使 得 
这 两 个 函数 是 相互 兼容 和 线程 安全 的 。 





code/src/csapp.c 
i ssize_t rio_readlineb(rio_t *rp, void *usrbuf, size_t maxlen) 
2 污 
3 int NT, res 
4 char c, *bufp = usrbuf; 
6 for (n = 1; n < maxlen; n++) { 
7 if ((rc = rio_read(rp, &c, 1)) == 1) +{ 
8 *bufp++ = c; 
9 if (c == '\n') { 
10 n++; 
新 break ; 
议 二 
13 } else if (rc == 0) { 
14 if (n == 1) 
欧 return 0; /* EOF, no data read */ 
16 else 
17 break; /* EOF, some data Was read */ 
18 } else 
19 return -1; /* Error */ 
20 } 
21 *bufp = 0; 
22 return n-1; 
2 
code/src/csapp.c 
code/src/csapp.c 
1 ssize_t rio_readnb(rio_t *rp, void *usrbuf, size_t n) 
2 不 
3 size_t nleft = n; 
4 ssize_t Dread ; 
a char *bufp = usrbuf; 
6 
2 while (nleft > 0) { 
8 if ((nread = rio_read(rp, bufp, nleft)) < 0) 
9 return -1; /* errno set by read() */ 
10 else if (nread == 0) 
M1 break; /* EOF */ 
啼 nleft -= nread; 
13 bufp += nread; 
14 } 
祷 return (n - nleft); /* Return >= 0 */ 
16 } 


code/src/csapp.c 


图 10-8 ”rio readlineb 和 rio readnb 函数 
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10.6 读 取 文件 元 数据 








应 用 程序 能 够 通过 调用 stat 和 fstat 函数 ， 检 索 到 关于 文件 的 信息 (有 时 也 称 为 文 


件 的 元 数据 (metadata) ) 。 








#include “unistd.h> 
#include <sys/stat.h> 





int stat(const char *filename, struct stat *buf); 
int fstat(int fd, struct stat *buf); 


返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 








stat 函数 以 一 个 文件 名 作为 输入 ， 并 填写 如 图 10-9 所 示 的 一 个 stat 数据 结构 中 的 
各 个 成 员 。fstat 函数 是 相似 的 ， 只 不 过 是 以 文件 描述 符 而 不 是 文件 名 作为 输入 。 当 我 们 
在 11. 5 节 中 讨论 Web 服务 器 时 ， 会 需要 stat 数据 结构 中 的 st_mode 和 st_size 成 员 ， 


其 他 成 员 则 不 在 我 们 的 讨论 之 列 。 


statbuf.h (included by sys/stat.h) 


/* Metadata returned by the stat and fstat functions */ 


struct stat { 


dev_t st_dev; 
ino_t st_ino; 
mode_t st_mode; 
nlink_t st_nlink; 
uid_t st_uid; 
gid_t st_gid; 
dev_t st_rdev; 
off_t st_size; 


/* 
/* 
/* 
/* 
/本 
/* 
/* 
/* 


unsigned long st_blksize; A* 


unsigned long st_blocks; /* 


time_t st_atime; 
time_t st_mtime; 
time_t st_ctime; 


/* 
/* 
/* 


图 10-9 


Device */ 

inode */ 

Protection and file type */ 
Number of hard links */ 

User ID of owner */ 

Group ID of owner */ 

Device type (if inode device) */ 
Total size, in bytes */ 

Block size for filesystem I/0 */ 
Number of blocks allocated */ 
Time of last access */ 

Time of last modification */ 


Time of last change */ 


statbuf.h (included by sys/stat.h) 
stat 数据 结构 


st_size 成 员 包 含 了 文件 的 字 节 数 大 小 。st_mode 成 员 则 编码 了 文件 访问 许可 位 (图 
10-2) 和 文件 类 型 (10. 2 节 )。Linux 在 sys/stat.h 中 定义 了 宏 谓 词 来 确定 st_mode 成 员 


的 文件 类 型 : 


S_ISREG(Cm) 。 这 是 一 个 普通 文件 吗 ? 

S_ISDIR(m) 。 这 是 一 个 目录 文件 吗 ? 

S_ISSOCK(m) 。 这 是 一 个 网 络 套 接 字 吗 ? 

图 10-10 展示 了 我 们 会 如 何 使 用 这 些 宏和 stat 函数 来 读 取 和 解释 一 个 文件 的 st_ 


mode 位 。 
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code/io/statcheck.c 
1 #include "csapp.h" 
2 
3 int main (int argc, char **argv) 
4 i 
5 struct stat stat; 
6 char *type, *readok; 
7 
8 Stat(argv[1], &stat); 
9 if (S_ISREG(stat .st_mode) ) /* Determine file type */ 
10 type = "regular'"; 
11 else if (S_ISDIR(stat.st_mode)) 
论 type = "directory"; 
13 else 
14 type = "other"; 
15 if ((stat.st_mode & S_IRUSR)) /* Check read access */ 
16 readok = "yes"; 
4 else 
18 readok = "no"; 
19 
20 printf("type: %s, read: %s\n", type, readok); 
21 exit (0); 
>> 
code/io/statcheck.c 


图 10-10 查询 和 处 理 一 个 文件 的 st_mode 位 
10. 7 读 取 目录 内 容 
应 用 程序 可 以 用 readdir 系列 函数 来 读 取 目 录 的 内 容 。 


#include <sys/types.h> 
#include <dirent.h> 


DIR *opendir(const char *name); 


返回 : 若 成 功 ， 则 为 处 理 的 指针 ; 若 出 错 ， 则 为 NULL。 











函数 opendir 以 路 径 名 为 参数 ， 返 回 指向 目录 流 (directory stream) 的 指针 。 流 是 对 
条 目 有 序列 表 的 抽象 ， 在 这 里 是 指 目录 项 的 列表 。 








#include <dirent.h> 


struct dirent *readdir(DIR *dirp); 
返回 : 若 成 功 ， 则 为 指向 下 一 个 目录 项 的 指针 ; 若 没 有 更 多 的 目录 项 或 出 错 ， 则 为 NULL。 








每 次 对 reaqdir 的 调用 返回 的 都 是 指向 流 dirp 中 下 一 个 目录 项 的 指针 ， 或者， 如 果 
没有 更 多 目录 项 则 返回 NULL。 每 个 目录 项 都 是 一 个 结构 ， 其 形式 如 下 : 


struct dirent { 
ino_t d_ino; /* inode number */ 
char d_name[256]; /* Filename */ 
站 
虽然 有 些 Linux 版 本 包含 了 其 他 的 结构 成 员 , 但 是 只 有 这 两 个 对 所 有 系统 来 说 都 是 标 
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准 的 。 成 员 a_name 是 文件 名 ，d_ino 是 文件 位 置 。 
如 果 出 错 ， 则 readdir 返回 NULL， 并 设置 errno。 可 惜 的 是 ， 唯 一 能 区 分 错误 和 
流 结 束 情 况 的 方法 是 检查 自 调用 readdir 以 来 errno 是 否 被 修改 过 。 








#include <dirent.h> 





int closedir(DIR *dirp); 
返回 : 成 功 为 0; 错误 为 一 1。 











函数 closedir 关闭 流 并 释放 其 所 有 的 资源 。 图 10-11 展示 了 怎样 用 readdir 来 读 取 
目录 的 内 容 。 


code/io/readdir.c 
1 #include "csapp.h" 
2 
3 int main(int argc, char **argv) 
4 苹 
DIR *streamp; 
6 struct dirent *dep; 
7 
8 streamp = Opendir(argv[1]); 
9 
10 errno = 0; 
11 while ((dep = readdir(streamp)) != NULL) { 
12 printf ("Found file: %s\n", dep->d_name); 
13 } 
14 if (errno != 0) 
15 unix_error("readdir error'"); 
16 
17 Closedir(streamp) ; 
18 exit (0); 
19 } 
code/io/readdir.c 


图 10-11 读 取 目录 的 内 容 


10. 8 共享 文件 


可 以 用 许多 不 同 的 方式 来 共享 Linux 文件 。 除 非 你 很 清楚 内 核 是 如 何 表 示 打 开 的 文 
件 ， 否 则 文件 共享 的 概念 相当 难 懂 。 内 核 用 三 个 相关 的 数据 结构 来 表示 打开 的 文件 : 

@ 描述 符 表 (descriptor table) 。 每 个 进程 都 有 它 独 立 的 描述 符 表 ， 它 的 表 项 是 由 进程 
打开 的 文件 描述 符 来 索引 的 。 每 个 打开 的 描述 符 表 项 指向 文件 表 中 的 一 个 表 项 。 

@ 文件 表 (file table) 。 打 开 文 件 的 集合 是 由 一 张 文 件 表 来 表示 的 ， 所 有 的 进程 共享 这 
张 表 。 每 个 文件 表 的 表 项 组 成 (针对 我 们 的 目的 ) 包 括 当 前 的 文件 位 置 、 引 用 计数 
(reference count)( 即 当前 指向 该 表 项 的 描述 符 表 项 数 ) ， 以 及 一 个 指向 v-node 表 中 
对 应 表 项 的 指针 。 关 闭 一 个 描述 符 会 减少 相应 的 文件 表 表 项 中 的 引用 计数 。 内 核 不 
会 删除 这 个 文件 表 表 项 ， 直 到 它 的 引用 计数 为 零 。 
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e v-node 表 (v-node table) 。 同 文件 表 一 样 ， 所 有 的 进程 共享 这 张 v-node 表 。 每 个 表 
项 包含 stat 结构 中 的 大 多 数 信 息 ， 包 括 st_ mode 和 st_size 成 员 。 
图 10-12 展示 了 一 个 示例 ， 其 中 描述 符 1 和 4 通过 不 同 的 打开 文件 表 表 项 来 引用 两 个 
不 同 的 文件 。 这 是 一 种 典型 的 情况 ， 没 有 共享 文件 ， 并 且 每 个 描述 符 对 应 一 个 不 同 的 
文件 。 


描述 符 表 打开 文件 表 v-node 表 
(每 个 进程 一 张 表 ) (所 有 进程 共享 ) ( 所 有 进程 共享 ) 
交 作 溉 












stdin fd0 
stdout fd1| | 


stderr fd2 
fd3 


文件 访问 
文件 大 小 
文件 类 型 














fd4 














文件 访问 
文件 大 小 








图 10-12 典型 的 打开 文件 的 内 核 数 据 结 构 。 在 这 个 示例 中 ， 
两 个 描述 符 引 用 不 同 的 文件 。 没 有 共享 


如 图 10-13 所 示 ， 多 个 描述 符 也 可 以 通过 不 同 的 文件 表 表 项 来 引用 同一 个 文件 。 例 
如 ， 如 果 以 同一 个 filename 调用 open 函数 两 次 ， 就 会 发 生 这 种 情况 。 关 键 思 想 是 每 个 
描述 符 都 有 它 自 己 的 文件 位 置 ， 所 以 对 不 同 描述 符 的 读 操 作 可 以 从 文件 的 不 同位 置 获取 
数据 。 







描述 符 表 打开 文件 表 v-node 表 
(每 个 进程 一 张 表 ) (所 有 进程 共享 ) (所 有 进程 共享 ) 
文件 A 


文件 位 置 






文件 位 置 


refcnt= 





图 10-13 文件 共享 。 这 个 例子 展示 了 两 个 描述 符 通过 两 个 
打开 文件 表 表 项 共享 同一 个 磁盘 文件 
我 们 也 能 理解 父子 进程 是 如 何 共享 文件 的 。 假 设 在 调用 fork 之 前 ， 父 进程 有 如 图 10-12 
所 示 的 打开 文件 。 然 后 ， 图 10-14 展示 了 调用 fork 后 的 情况 。 子 进程 有 一 个 父 进程 描 
述 符 表 的 副本 。 父 子 进程 共享 相同 的 打开 文件 表 集 合 ， 因 此 共享 相同 的 文件 位 置 。 一 个 
很 重要 的 结果 就 是 ， 在 内 核 删 除 相应 文件 表 表 项 之 前 ， 父 子 进程 必须 都 关闭 了 它们 的 描 
述 符 。 
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、 打开 文件 表 v-node 表 
描述 符 表 (所 有 进程 共享 ) (所 有 进程 共享 ) 


父 进程 的 表 文件 A 
Pp 
文件 位 置 
refcnt =2| 
| 





| | 
文件 位 置 
refcnt=2 
| :| 





图 10-14 子 进程 如 何 继承 父 进程 的 打开 文件 。 初 始 状 态 如 图 10-12 所 示 


攻守 练习 题 10.2 假设 磁盘 文件 foobar.txt 由 6 个 ASCII 码 字符 “foobar” 组 成 。 那 
么 ， 下 列 程序 的 输出 是 什么 ? 


1 #include "csapp.h" 

2 

3 int main() 

4 攻 

3 int fdi, fd2; 

6 char c; 

7 

8 fdl = Open("foobar.txt", 0_RDONLY, 0); 
9 fd2 = Open("foobar.txt", 0_RDONLY, 0); 
10 Read(fdi, &c, 1); 

11 Read(fd2, &c, 1); 

记 printf("c = %c\n", c); 

13 exit (0); 

14 } 


蕊 s 练习 题 10. 3 ”就 像 前 面 那样 ， 假 设 磁盘 文件 foobar.txt 由 6 个 ASCII 码 字符 “foobar” 
组 成 。 那 么 下 列 程序 的 输出 是 什么 ? 


1 #include "csapp.h" 

2 

3 int main() 

坟 呈 

5 int fd; 

6 char c; 

pa 

8 fd = Open("foobar.txt", 0_RDONLY, 0); 
9 if (Fork() == 0) { 

10 Read(fd, &c, 1); 
11 exit(0); 
12 } 

13 Wait (NULL); 

14 Read(fd, &c, 1); 

15 printf("e = WeNn, ce)s 
16 exit (0); 
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10.9 MO 重 定向 


Linux shell 提供 了 1/O 重 定向 操作 符 ， 人 允许 用 户 将 磁盘 文件 和 标准 输入 输出 联系 起 
来 。 例 如 ， 键 人 


linux> JS > foo.txt 


使 得 shell 加 载 和 执行 1s 程序 ， 将 标准 输出 重 定向 到 磁盘 文件 foo.txt。 就 如 我 们 将 在 
11. 5 节 中 看 到 的 那样 ， 当 一 个 Web 服务 器 代表 客户 端 运行 CGI 程序 时 ， 它 就 执行 一 种 相 
似 类 型 的 重 定 向 。 那 么 MO 重 定向 是 如 何 工作 的 呢 ? 一 种 方式 是 使 用 dup2 函数 。 





#include <unistd.h> 


int dup2(int oldfd, int newfd); 
返回 : 车 成 功 则 为 非 负 的 描述 符 ， 若 出 错 则 为 一 1。 








dup2 函数 复制 描述 符 表 表 项 oldfd 到 描述 符 表 表 项 newfd， 履 盖 描 述 符 表 表 项 new- 
fd 以 前 的 内 容 。 如 果 newfd 已 经 打开 了 ，dup2 会 在 复制 oldfd 之 前 关闭 newfq。 

假设 在 调用 dup2 (4,1) 之 前 ， 我们 的 状态 如 图 10-12 所 示 ， 其 中 描述 符 1( 标 准 输出 ) 
对 应 于 文件 A( 比 如 一 个 终端 ) ， 描 述 符 4 对 应 于 文件 B( 比 如 一 个 磁盘 文件 )。A 和 B 的 引 
用 计数 都 等 于 1。 图 10-15 显示 了 调用 dup2 (4,1) 之 后 的 情况 。 两 个 描述 符 现在 都 指向 文 
件 B; 文件 A 已 经 被 关闭 了 ， 并 且 它 的 文件 表 和 v-node 表 表 项 也 已 经 被 删除 了 ; 文件 B 
的 引用 计数 已 经 增加 了 。 从 此 以 后 ， 任 何 写 到 标准 输出 的 数据 都 被 重 定向 到 文件 B。 


描述 符 表 打开 文件 表 v-node 表 
( 每 个 进程 一 张 表 ) (所 有 进程 共享 ) (所 有 进程 共享 ) 
文件 
fd0 ee | 文件 访问 
i [文件 位 置 | ;文件 大 小 . 
fd3 irefcnt=0} 8 文件 类 型 ! 
fd4 ! : | ! : | 


文件 访问 


文件 大 小 
文件 类 型 
| | 





图 10-15 通过 调用 dup2 (4,1) 重 定向 标准 输出 之 后 的 内 核 数 据 结构 。 初 始 状 态 如 图 10-12 所 示 


攻 要 左边 和 右边 的 hoinkies 
为 了 避免 和 其 他 括号 类 型 操作 符 比如 “]” 和 “[” 相 混淆 ， 我 们 总 是 将 shell 的 
GS 操作 符 称 为 Ss hoinky”, 而 将 2 操作 符 称 为 “大 hoinky”。 


区 可 练习 题 10. 4 ”如 何 用 dup2 将 标准 输入 重 定向 到 描述 符 5? 

BE 练习 题 10.5 假设 磁盘 文件 foobar.txt 由 6 个 ASCII 码 字符 “foobar” 组 成 ， 那 
么 下 列 程 序 的 输出 是 什么 ? 
1 #include "csapp.h" 


3 
3 int main() 








638 第 三 部 分 程序 间 的 交互 和 通信 
4 攻 
入 jnt Fat, fa2: 
6 char c; 
py 
8 fdi = Open("foobar.txt", 0_RDONLY, 0 
9 fd2 = 0pen("foobar .txt"，0_RDONLY，0) ; 
10 Read(fd2, &c, 1); 
11 Dup2(fd2, fd1); 
让 Read(fdi, &c, 1); 
13 printf("c = %c\n", c); 
14 exit(0); 
临 ” 二 


10. 10 标准 MO 

C 语言 定义 了 一 组 高 级 输入 输出 函数 ， 称 为 标准 MO 库 ， 为 程序 员 提 供 了 Unix IO 
的 较 高 级 别 的 替代 。 这 个 库 (libc) 提 供 了 打开 和 关闭 文件 的 函数 (fopen 和 fclose)、 读 
和 写字 节 的 函数 (fread 和 fwrite)、 读 和 写字 符 串 的 函数 (fgets 和 fputs)， 以 及 复杂 
的 格式 化 的 1/O 函数 (scanf 和 Printf) 。 

标准 I/O 库 将 一 个 打开 的 文件 模型 化 为 一 个 流 。 对 于 程序 员 而 言 ， 一 个 流 就 是 一 个 指 
向 FILE 类 型 的 结构 的 指针 。 每 个 ANSI C 程序 开始 时 都 有 三 个 打开 的 流 stdin、stdout 
和 stderr， 分 别 对 应 于 标准 输入 、 标 准 输 出 和 标准 错误 : 


#include <stdio.h> 


extern FILE *stdin; /* Standard input (descriptor 0) */ 
extern FILE *stdout; /* Standard output (descriptor 1) */ 
extern FILE *stderr; /* Standard error (descriptor 2) */ 


类 型 为 FILE 的 流 是 对 文件 描述 符 和 流 缓 冲 区 的 抽象 。 流 缓冲 区 的 目的 和 RIO 读 缓冲 
区 的 一 样 ， 就 是 使 开销 较 高 的 Linux I/O 系统 调用 的 数量 尽 可 能 得 小 。 例 如 ， 假 设 我 们 有 
一 个 程序 ， 它 反复 调用 标准 MO 的 getc 函数 ， 每 次 调用 返回 文件 的 下 一 个 字符 。 当 第 一 
次 调用 getc 时 ， 库 通过 调用 一 次 read 函数 来 填充 流 缓 冲 区 ， 然 后 将 缓冲 区 中 的 第 一 个 
字 节 返回 给 应 用 程序 。 只 要 缓冲 区 中 还 有 未 读 的 字 节 ， 接 下 来 对 getc 的 调用 就 能 直接 从 
流 缓冲 区 得 到 服务 。 


10. 11 综合 : 我 该 使 用 哪些 MO 函数 ? 
图 10-16 总 结 了 我 们 在 这 一 章 里 讨论 过 的 各 种 IO 包 。 


fopen fdopen 
fread fwrite 
fscanf fprintf 


sscanf sprintf 了 C 应 用 程序 
fgets fputs 、 
fflush fseek 


fclose 


rio_readn 





和 rio_writen 
了 标准 IO 函数 RIO 函数 rio_readinitb 
rio_readlineb 
open read rio_readnb 
write lseek |。 Unix IO 函数 
stat close (通过 系统 调用 来 访问 ) 


图 10-16 ”Unix I/O、 标 准 IO 和 RIO 之 间 的 关系 
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Unix I/O 模型 是 在 操作 系统 内 核 中 实现 的 。 应 用 程序 可 以 通过 诸如 open、close、 
lseek、read、write 和 stat 这 样 的 函数 来 访问 Unix I/O。 较 高 级 别 的 RIO 和 标准 1/O 
函数 都 是 基于 (使 用 )Unix 1/O 函数 来 实现 的 。RIO 函数 是 专 为 本 书 开 发 的 read 和 write 
的 健壮 的 包装 函数 。 它 们 自动 处 理 不 足 值 ， 并 且 为 读 文本 行 提供 一 种 高 效 的 带 缓冲 的 方 
法 。 标 准 I/O 函数 提供 了 Unix 1/O 函数 的 一 个 更 加 完整 的 带 缓冲 的 替代 品 ， 包 括 格式 化 
的 I[O 例 程 ， 如 printf 和 scanf。 

那么 ， 在 你 的 程序 中 该 使 用 这 些 函 数 中 的 哪 一 个 呢 ? 下 面 是 一 些 基 本 的 指导 原则 : 

e G1: 只 要 有 可 能 就 使 用 标准 IIO。 对 磁盘 和 终端 设备 1/O 来 说 ,标准 W/O 函数 是 首 
选 方法 。 大 多 数 C 程序 员 在 其 整个 职业 生涯 中 只 使 用 标准 /O， 从 不 受 较 低级 的 
Unix I/O 函数 的 困扰 (可 能 stat 除外 ， 因 为 在 标准 I/O 库 中 没有 与 它 对 应 的 函 
数 ) 。 只 要 可 能 ， 我 们 建议 你 也 这 样 做 。 

e G2: 不 要 使 用 scanf 或 rio readlineb 来 读 二 进 制 文件 。 像 scanf 或 rio read- 
lineb 这 样 的 函数 是 专门 设计 来 读 取 文 本 文件 的 。 学 生 通 常会 犯 的 一 个 错误 就 是 用 
这 些 函 数 来 读 取 二 进 制 文件 ， 这 就 使 得 他 们 的 程序 出 现 了 诡异 莫 测 的 失败 。 比 如 ， 
二 进 制 文件 可 能 散布 着 很 多 0xa 字 节 ， 而 这 些 字 节 又 与 终止 文本 行 无 关 。 

e G3: 对 网 络 套 接 字 的 I/O 使 用 RIO 函数 。 不 幸 的 是 ， 当 我 们 试 着 将 标准 1/O 用 于 
网 络 的 输入 输出 时 ， 出 现 了 一 些 令 人 讨厌 的 问题 。 如 同 我 们 将 在 11.4 节 所 见 ， 
Linux 对 网 络 的 抽象 是 一 种 称 为 套 接 字 的 文件 类 型 。 就 像 所 有 的 Linux 文件 一 样 ， 
套 接 字 由 文件 描述 符 来 引用 ， 在 这 种 情况 下 称 为 套 接 字 描述 符 。 应 用 程序 进程 通过 
读 写 套 接 字 描述 符 来 与 运行 在 其 他 计算 机 的 进程 实现 通信 。 

标准 I/O 流 ， 从 某 种 意义 上 而 言 是 全 双 工 的 ， 因 为 程序 能 够 在 同一 个 流 上 执行 输入 和 
输出 。 然 而 ， 对 流 的 限制 和 对 套 接 字 的 限制 ， 有 时 候 会 互相 冲突 ， 而 又 极 少 有 文档 描述 这 
些 现象 : 

@ 限制 一 : 跟 在 输出 函数 之 后 的 输入 函数 。 如 果 中 间 没 有 插入 对 fflush、fseek、 

，fsetpos 或 者 rewind 的 调用 , 一 个 输入 函数 不 能 跟随 在 一 个 输出 函数 之 后 。 
fflush 函数 清空 与 流 相 关 的 缓冲 区 。 后 三 个 孔 数 使 用 Unix I/O lseek 函数 来 重 置 
当前 的 文件 位 置 。 

@ 限制 二 : 跟 在 输入 函数 之 后 的 输出 函数 。 如 果 中 间 没 有 插 人 对 fseek、fsetpos 或 
者 rewind 的 调用 ， 一 个 输出 函数 不 能 跟随 在 一 个 输入 函数 之 后 ， 除 非 该 输入 函数 
遇 到 了 一 个 文件 结束 。 

这 些 限制 给 网 络 应 用 带 来 了 一 个 问题 ， 因 为 对 套 接 字 使 用 1seek 函数 是 非法 的 。 对 流 
1/O 的 第 一 个 限制 能 够 通过 采用 在 每 个 输入 操作 前 刷新 缓冲 区 这 样 的 规则 来 满足 。 然 而 ， 
要 满足 第 二 个 限制 的 唯一 办 法 是 ， 对 同一 个 打开 的 套 接 字 描述 符 打 开 两 个 流 ， 一 个 用 来 
读 ， 一 个 用 来 写 : 

FILE *fpin, *fpout; 


fpin = fdopen(sockfd, "r"); 

fpout = fdopen(sockfd, "w"); 

但 是 这 种 方法 也 有 问题 ， 因 为 它 要 求 应 用 程序 在 两 个 流 上 都 要 调用 fclose， 这 样 才 
能 释放 与 每 个 流 相关 联 的 内 存 资源 ， 避 免 内 存 泄漏 : 


fclose(fpin) ; 
fclose(fpout) ; 
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这 些 操作 中 的 每 一 个 都 试图 关闭 同一 个 底层 的 套 接 字 描 述 符 ， 所 以 第 二 个 close 操作 
就 会 失败 。 对 顺序 的 程序 来 说 ， 这 并 不 是 问题 ,但 是 在 一 个 线程 化 的 程序 中 关闭 一 个 已 经 
关闭 了 的 描述 符 是 会 导致 灾难 的 ( 见 12. 7.4 节 )。 

因此 ， 我 们 建议 你 在 网 络 套 接 字 上 不 要 使 用 标准 IO 函数 来 进行 输入 和 输出 ， 而 要 使 
用 健壮 的 RIO 函数 。 如 果 你 需要 格式 化 的 输出 ， 使 用 sprintf 函数 在 内 存 中 格式 化 一 个 
字符 串 ， 然 后 用 rio_writen 把 它 发 送 到 套 接口 。 如 果 你 需要 格式 化 输入 ,使 用 rio_ 
readlineb 来 读 一 个 完整 的 文本 行 ， 然 后 用 sscanf 从 文本 行 提取 不 同 的 字段 。 


10. 这 于 


Linux 提供 了 少量 的 基于 Unix 1/O 模型 的 系统 级 函数 ， 它 们 允许 应 用 程序 打开 、 关 闭 、 读 和 写 文件 ， 
提取 文件 的 元 数据 ， 以 及 执行 VO 重 定向 。Linux 的 读 和 写 操 作 会 出 现 不 足 值 ， 应 用 程序 必须 能 正确 地 
预计 和 处 理 这 种 情况 。 应 用 程序 不 应 直接 调用 Unix I/O 函数 ， 而 应 该 使 用 RIO 包 ，RIO 包 通 过 反复 执行 
读 写 操作 ， 直 到 传送 完 所 有 的 请 求 数 据 ， 自 动 处 理 不 足 值 。 

Linux 内 核 使 用 三 个 相关 的 数据 结构 来 表示 打开 的 文件 。 描 述 符 表 中 的 表 项 指向 打开 文件 表 中 的 表 
项 ,而 打开 文件 表 中 的 表 项 又 指向 v-node 表 中 的 表 项 。 每 个 进程 都 有 它 自己 单独 的 描述 符 表 ， 而 所 有 的 
进程 共享 同一 个 打开 文件 表 和 v-node 表 。 理 解 这 些 结构 的 一 般 组 成 就 能 使 我 们 清楚 地 理解 文件 共享 和 
I/O 重 定向 。 

标准 W/O 库 是 基于 Unix 1/O 实现 的 ， 并 提供 了 一 组 强大 的 高 级 1/O 例 程 。 对 于 大 多 数 应 用 程序 而 
言 ， 标 准 I/O 更 简单 ， 是 优 于 Unix 1/O 的 选择 。 然 而 ， 因 为 对 标准 IO 和 网 络 文件 的 一 些 相互 不 兼容 的 
限制 ，Unix 1/O 比 之 标准 1/O 更 该 适用 于 网 络 应 用 程序 。 


参考 文献 说 明 

Kerrisk 撰写 了 关于 Unix I/O 和 Linux 文件 系统 的 综述 [62]。Stevens 编写 了 Unix 1/O 的 标准 参考 
文献 [111]。Kernighan 和 Ritchie 对 于 标准 MO 函数 给 出 了 清晰 而 完整 的 讨论 [61] 。 
家 庭 作 业 


* 10.6 下 面 程序 的 输出 是 什么 ? 
#include "csapp.h" 


E 
2 
3 int main() 
加 于 
5 int fdi, fd2; 
6 
7 fdl = Open("foo.txt", 0O_RDONLY, 0); 
8 fd2 = Open("bar.txt", 0_RDONLY, 0); 
9 Close (fd2); 
10 fd2 = Open("baz.txt", O_RDONLY, 0); 
11 printf("fd2 = Yad\n", fd2); 
12 exit (0); 
13 9 
“10. 7 修改 图 10-5 中 所 示 的 cpfile 程序 ， 使 得 它 用 RIO 函数 从 标准 输入 复制 到 标准 输出 ， 一 次 MAX- 
BUF 个 字 节 。 
** 10.8 编写 图 10-10 中 的 statcheck 程序 的 一 个 版 本 ， 叫 做 fstatcheck， 它 从 命令 行 上 取得 一 个 描述 符 
数字 而 不 是 文件 名 。 


** 10.9 考虑 下 面 对 作 业 题 10. 8 中 的 fstatcheck 程序 的 调用 : 


linux> fstatcheck 3 < foo.txt 


你 可 能 会 预想 这 个 对 fstatcheck 的 调用 将 提取 和 显示 文件 foo.txt 的 元 数据 。 然 而 ， 当 我 们 在 
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系统 上 运行 它 时 ， 它 将 失败 ， 返回“ 坏 的 文件 描述 符 ”。 根 据 这 种 情况 ， 填 写 出 shell 在 fork 和 
execve 调用 之 间 必 须 执行 的 伪 代 码 : 
if (Fork() == 0) { /* child */ 

/* What code is the shell executing right here? */ 


Execve("fstatcheck", argv, envp); 
} 


** 10. 10 ”修改 图 10-5 中 的 cpfile 程序 ， 使 得 它 有 一 个 可 选 的 命令 行 参数 infile。 如 果 给 定 了 infile， 


练习 


也. 冯 


那么 复制 infile 到 标准 输出 ， 否 则 像 以 前 那样 复制 标准 输入 到 标准 输出 。 一 个 要 求 是 对 于 两 种 
情况 ， 你 的 解答 都 必须 使 用 原来 的 复制 循环 (第 9~11 行 )。 只 人 允许 你 插 和 人 代码， 而 不 允许 更 改 任 
何 已 经 存在 的 代码 。 


题 答案 


Unix 进程 生命 周期 开始 时 ， 打 开 的 描述 符 赋 给 了 stdin( 描 述 符 0) 、stdout( 描 述 符 1) 和 stder 
(描述 符 2) 。open 函数 总 是 返回 最 低 的 未 打开 的 描述 符 ， 所 以 第 一 次 调用 open 会 返回 描述 符 3 。 
调用 close 函数 会 释放 描述 符 3。 最 后 对 open 的 调用 会 返回 描述 符 3， 因 此 程序 的 输出 是 “fdq2=3?”。 
描述 符 fdl 和 fd2 都 有 各 自 的 打开 文件 表 表 项 ， 所 以 每 个 描述 符 对 于 foobar.txt 都 有 它 自 己 的 
文件 位 置 。 因 此 ， 从 fq2 的 读 操作 会 读 取 foobar.txt 的 第 一 个 字 节 ， 并 输出 

c=f 

而 不 是 像 你 开始 可 能 想 的 

回想 一 下 ， 子 进程 会 继承 父 进程 的 描述 符 表 ， 以 及 所 有 进程 共享 的 同一 个 打开 文件 表 。 因 此 ， 描 
述 符 fa 在 父子 进程 中 都 指向 同一 个 打开 文件 表 表 项 。 当 子 进程 读 取 文件 的 第 一 个 字 节 时 ， 文 件 位 
置 加 1。 因此 ， 父 进程 会 读 取 第 二 个 字 节 ， 而 输出 就 是 

重 定向 标准 输入 (描述 符 0) 到 描述 符 5， 我 们 将 调用 dup2 (5, 0) 或 者 等 价 的 dup2 (5, STDIN_FILE- 
NO) 。 

第 一 眼 你 可 能 会 想 输出 应 该 是 

c=f 

但 是 因为 我 们 将 fdl 重 定向 到 了 fd2， 输 出 实际 上 是 


C = 0 
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网 络 编程 


网 络 应 用 随处 可 见 。 任 何 时 候 浏览 Web、 发 送 email 信息 或 是 玩 在 线 游戏 ， 你 就 正在 
使 用 网 络 应 用 程序 。 有 趣 的 是 ， 所 有 的 网 络 应 用 都 是 基于 相同 的 基本 编程 模型 ， 有 着 相似 
的 整体 逻辑 结构 ， 并 且 依赖 相同 的 编程 接口 。 

网 络 应 用 依赖 于 很 多 在 系统 研究 中 已 经 学 习 过 的 概念 。 例 如 ， 进 程 、 信 号 、 字 节 顺 
序 、 内 存 映射 以 及 动态 内 存 分 配 ， 都 扮演 着 重要 的 角色 。 还 有 一 些 新 概念 要 人 掌握。 我 们 需 
要 理解 基本 的 客户 端 - 服 务 器 编程 模型 ， 以 及 如 何 编写 使 用 因特网 提供 的 服务 的 客户 端 - 服 
务 器 程序 。 最 后 ， 我 们 将 把 所 有 这 些 概念 结合 起 来 ， 开 发 一 个 虽 小 但 功能 齐全 的 Web 服 
务 器 ， 能 够 为 真实 的 Web 浏览 器 提供 静态 和 动态 的 文本 和 图 形 内 容 。 


11.1 客户 端 -服务 器 编程 模型 


每 个 网 络 应 用 都 是 基于 客户 端 -服务 器 模型 的 。 采 用 这 个 模型 ， 一 个 应 用 是 由 一 个 服 
务 器 进程 和 一 个 或 者 多 个 客户 端 进程 组 成 。 服 务 器 管理 某 种 资源 ， 并 且 通 过 操作 这 种 资源 
来 为 它 的 客户 端 提供 某 种 服务 。 例 如 ， 一 个 Web 服务 器 管理 着 一 组 磁盘 文件 ， 它 会 代表 
客户 端 进行 检索 和 执行 。 一 个 FTP 服务 器 管理 着 一 组 磁盘 文件 ， 它 会 为 客户 端 进行 存储 
和 检索 。 相 似 地 ， 一 个 电子 邮件 服务 器 管理 着 一 些 文件 ， 它 为 客户 端 进行 读 和 更 新 。 

客户 端 - 服 务 器 模型 中 的 基本 操作 是 事务 (transaction)( 见 图 11-1) 。 一 个 客户 端 -服务 
器 事务 由 以 下 四 步 组 成 。 

1) 当 一 个 客户 端 需 要 服务 时 ， 它 向 服务 器 发 送 一 个 请 求 ， 发 起 一 个 事务 。 例 如 ， 当 
Web 浏览 器 需要 一 个 文件 时 ， 它 就 发 送 一 个 请 求 给 Web 服务 器 。 

2) 服务 器 收 到 请 求 后 ， 解 释 它 ， 并 以 适当 的 方式 操作 它 的 资源 。 例 如 ， 当 Web 服务 
器 收 到 浏览 器 发 出 的 请 求 后 ， 它 就 读 一 个 磁盘 文件 。 

3) 服务 器 给 客户 端 发 送 一 个 响应 ， 并 等 待 下 一 个 请 求 。 例 如 ，Web 服务 器 将 文件 发 
送 回 客户 端 。 

4) 客户 端 收 到 响应 并 处 理 它 。 例 如 ， 当 Web 浏览 器 收 到 来 自 服 务 器 的 一 页 后 ， 就 在 
屏幕 上 显示 此 页 。 


1. 客户 端 发 送 请 求 
4. 客户 端 客户 将 人、 服务 器 -一 一 一 
处 理 响 应 进程。 人- 服务 
3. 服务 器 发 送 响应 > 


图 11-1 一 个 客户 端 -服务 器 事务 


认识 到 客户 端 和 服务 器 是 进程 ， 而 不 是 常 提 到 的 机 器 或 者 主机 ， 这 是 很 重要 的 。 一 台 
主机 可 以 同时 运行 许多 不 同 的 客户 端 和 服务 器 ， 而 且 一 个 客户 端 和 服务 器 的 事务 可 以 在 同 
一 台 或 是 不 同 的 主机 上 。 无 论 客户 端 和 服务 器 是 怎样 映射 到 主机 上 的 ， 客 户 端 -服务 器 模 
型 都 是 相同 的 。 
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下 客户 端 -服务 器 事务 与 数据 库 事 务 


客户 端 -服务 器 事务 不 是 数据 库 事 务 ， 没 有 数据 库 事务 的 任何 特性 ， 例 如 原子 性 。 
在 我 们 的 上 下 文中 ， 事 务 仅仅 是 客户 端 和 服务 器 执行 的 一 系列 步骤 。 


11.2 网 络 

客户 端 和 服务 器 通常 运行 在 不 同 的 主机 上 ， 并 且 通 过 计算 机 网 络 的 硬件 和 软件 资源 来 
通信 。 网 络 是 很 复杂 的 系统 ， 在 这 里 我 们 只 想 了 解 一 点 皮毛 。 我 们 的 目标 是 从 程序 员 的 角 
度 给 你 一 个 切实 可 行 的 思维 模型 。 

对 主机 而 言 ， 网 络 只 是 又 一 种 I/O 设备 ， 是 数据 源 和 数据 接收 方 ， 如 图 11-2 所 示 。 

一 个 插 到 IO 总 线 扩展 槽 的 适配器 提供 了 到 网 络 的 物理 接口 。 从 网 络 上 接收 到 的 数据 
从 适配器 经 过 IO 和 内 存 总 线 复 制 到 内 存 ， 通 常 是 通过 DMA 传送 。 相 似 地 ， 数 据 也 能 从 
内 存 复制 到 网 络 。 


CPU 芯片 


Register file 





总 ] 区 图 形 适 配器 | 磁盘 控制 器 | 网 络 适 配器 


鼠标 ”键盘 。 监视 > 


图 11-2 一 个 网 络 主机 的 硬件 组 成 


物理 上 而 言 ， 网 络 是 一 个 按照 地 理 远 近 组 成 的 层次 系统 。 最 低层 是 LAN(Local Area 
Network， 局 域 网 ) ， 在 一 个 建筑 或 者 校园 范围 内 。 迄 今 为 止 ， 最 流行 的 局 域 网 技术 是 以 
太 网 (Ethernet) ， 它 是 由 施乐 公司 帕 洛 阿尔 托 研究 中 心 (Xerox PARC) 在 20 世纪 70 年 代 
中 期 提出 的 。 以 太 网 技术 被 证 明 是 适应 力 极 强 的 ， 从 3Mb/s 演变 到 10Gb/s。 
一 个 以 太 网 段 (Ethernet segment) 包 括 一 些 电缆 (通常 是 双 绞 线 ) 和 一 个 叫做 集线器 的 
小 盒子 ， 如 图 11-3 所 示 。 以 太 网 段 通 常 跨越 一 些小 的 区 域 ， 例 如 某 建 筑 物 的 一 个 房间 
或 者 一 个 楼 层 。 每 根 电缆 都 有 相同 的 最 大 位 带宽 ， 通 常 是 100Mby/s 或 者 1Gb/s。 一 端 连 
接 到 主机 的 适配器 ， 而 另 一 端 则 连接 到 集线器 的 一 个 
端口 上 。 人 和 集线器 不 加 分 辨 地 将 从 一 个 端口 上 收 到 的 每 
个 位 复制 到 其 他 所 有 的 端口 上 上。 因此， 每 台 主 机 都 能 
看 到 每 个 位 。 
每 个 以 太 网 适配器 都 有 一 个 全 球 唯一 的 48 位 地 址 ， 
它 存 储 在 这 个 适配器 的 非 易 失 性 存储 器 上 。 一 台 主 机 可 图 11-3 ”以太 网 段 
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以 发 送 一 段位 ( 称 为 帧 (frame)) 到 这 个 网 段 内 的 其 他 任何 主机 。 每 个 帧 包括 一 些 固定 数量 
的 头 部 (header) 位 ， 用 来 标识 此 帧 的 源 和 目的 地 址 以 及 此 帧 的 长 度 ， 此 后 紧 随 的 就 是 数据 
位 的 有 效 载 荷 (payload) 。 每 个 主机 适配器 都 能 看 到 这 个 帧 ， 但 是 只 有 目的 主机 实际 读 
取 它 。 

使 用 一 些 电缆 和 叫做 网 桥 (bridge) 的 小 盒子 ， 多 个 以 太 网 段 可 以 连接 成 较 大 的 局 域 网 ， 
称 为 桥接 以 太 网 (bridged Ethernet) ， 如 图 11-4 所 示 。 桥 接 以 太 网 能 够 跨越 整个 建筑 物 或 
者 校区 。 在 一 个 桥接 以 太 网 里 ， 一 些 电 缆 连 接 网 桥 与 网 桥 ， 而 另外 一 些 连 接 网 桥 和 集 线 
器 。 这 些 电缆 的 带宽 可 以 是 不 同 的 。 在 我 们 的 示例 中 ， 网 桥 与 网 桥 之 间 的 电缆 有 1Gb/s 的 
带宽 ， 而 四 根 网 桥 和 集线器 之 间 电 缆 的 带宽 却 是 100Mb/s。 








100Mb/s 








图 11-4 桥接 以 太 网 


网 桥 比 集线器 更 充分 地 利用 了 电缆 带宽 。 利 用 一 种 聪明 的 分 配 算法 ， 它 们 随 着 时 间 自 
动 学 习 哪 个 主机 可 以 通过 哪个 端口 可 达 ， 然 后 只 在 有 必要 时 ， 有 选择 地 将 帧 从 一 个 端口 复 
制 到 另 一 个 端口 。 例 如 ， 如 果 主 机 A 发 送 一 个 帧 到 同 网 段 上 的 主机 了 B， 当 该 帧 到 达 网 桥 X 
的 输入 端口 时 ，X 就 将 丢弃 此 帧 ， 因 而 节省 了 其 他 网 段 上 的 带宽 。 然 而 ， 如 果 主 机 A 发 送 

一 个 帧 到 一 个 不 同 网 段 上 的 主机 C， 那 么 网 桥 X 只 会 把 此 帧 复制 到 和 网 桥 Y 相连 的 端口 
上 ， 网 桥 Y 会 只 把 此 帧 复制 到 与 主机 C 的 网 段 连接 的 端口 。 

为 了 简化 局 域 网 的 表示 ， 我 们 将 把 集线器 和 网 桥 以 及 连接 它们 的 电缆 画 成 一 根 水 平 
线 ， 如 图 11-5 所 示 。 

在 层次 的 更 高 级 别 中 ， 多 个 不 兼容 的 局 域 网 可 以 通过 叫做 路 由 器 (router) 的 特殊 计算 
机 连接 起 来 ， 组 成 一 个 internet( 互 联网 络 ) 。 每 台 路 由 器 对 于 它 所 连接 到 的 每 个 网 络 都 有 
一 个 适配器 (端口 ) 。 路 由 器 也 能 连接 高 速 点 到 点 电话 连接 ， 这 是 称 为 WAN (Wide-Area 
Network， 广 域 网 ) 的 网 络 示例 ， 之 所 以 这 么 叫 是 因为 它 
们 履 盖 的 地 理 范围 比 局 域 网 的 大 。 一 般 而 言 ， 路 由 器 可 以 主机 二 机 | ~… 








用 来 由 各 种 局 域 网 和 广域网 构建 互联 网 络 。 例 如 ， 图 11-6 
展示 了 一 个 互联 网 络 的 示例 ，3 台 路 由 器 连接 了 一 对 局 域 SEEREREEREEEES 
网 和 一 对 广域网 。 图 11-5 ”局域网 的 概念 视图 
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图 11-6 一 个 小 型 的 互联 网 络 。 三 台 路 由 器 连接 起 两 个 局 域 网 和 两 个 广域网 


苹 3 Internet 和 internet 
我 们 总 是 用 小 写字 母 的 internet 描述 一 般 概念 ， 而 用 大 写字 母 的 Internet 来 描述 一 
种 具体 的 实现 ， 也 就 是 所 谓 的 全 球 IP 因特网 。 


互联 网 络 至 关 重 要 的 特性 是 ， 它 能 由 采用 完全 不 同和 不 兼容 技术 的 各 种 局 域 网 和 广 域 
网 组 成 。 每 台 主 机 和 其 他 每 台 主 机 都 是 物理 相连 的 ， 但 是 如 何 能 够 让 某 台 源 主 机 跨 过 所 有 
这 些 不 兼容 的 网 络 发 送 数据 位 到 另 一 台 目 的 主机 呢 ? 

解决 办 法 是 一 层 运 行 在 每 台 主 机 和 路 由 器 上 的 协议 软件 ， 它 消除 了 不 同 网 络 之 间 的 差 
异 。 这 个 软件 实现 一 种 协议 ， 这 种 协议 控制 主机 和 路 由 器 如 何 协同 工作 来 实现 数据 传输 。 
这 种 协议 必须 提供 两 种 基本 能 力 : 

@ 命名 机 制 。 不 同 的 局 域 网 技术 有 不 同和 不 兼容 的 方式 来 为 主机 分 配 地 址 。 互 联网 络 

协议 通过 定义 一 种 一 致 的 主机 地 址 格式 消除 了 这 些 差异 。 每 台 主 机 会 被 分 配 至 少 一 
个 这 种 互联 网 络 地 址 (internet address)， 这 个 地 址 唯一 地 标识 了 这 台 主 机 。 

@ 传送 机 制 。 在 电缆 上 编码 位 和 将 这 些 位 封装 成 帧 方面 ， 不 同 的 联网 技术 有 不 同 的 和 
不 兼容 的 方式 。 互 联网 络 协议 通过 定义 一 种 把 数据 位 捆扎 成 不 连续 的 片 ( 称 为 包 ) 的 
统一 方式 ， 从 而 消除 了 这 些 差异 。 一 个 包 是 由 包头 和 有 效 载 荷 组 成 的 ， 其 中 包头 包 
括 包 的 大 小 以 及 源 主机 和 目的 主机 的 地 址 ， 有 效 载荷 包括 从 源 主 机 发 出 的 数据 位 。 

. 图 11-7 展示 了 主机 和 路 由 器 如 何 使 用 互联 网 络 协议 在 不 兼容 的 局 域 网 间 传 送 数 据 的 
一 个 示例 。 这 个 互联 网 络 示例 由 两 个 局 域 网 通过 一 台 路 由 器 连接 而 成 。 一 个 客户 端 运行 在 
主机 A 上 , 主机 A 与 LAN1 相连 ， 它 发 送 一 串 数据 字 节 到 运行 在 主机 B 上 的 服务 器 端 ， 
主机 B 则 连接 在 LAN2 上 。 这 个 过 程 有 8 个 基本 步骤 : 

1) 运行 在 主机 A 上 的 客户 端 进行 一 个 系统 调用 ， 从 客户 端的 虚拟 地 址 空间 复制 数据 
到 内 核 缓 冲 区 中 。 

2) 主机 A 上 的 协议 软件 通过 在 数据 前 附加 互联 网 络 包头 和 LANI1 帧 头 ， 创 建 了 一 个 
LANI1 的 帧 。 互 联网 络 包 头 寻 址 到 互联 网 络 主机 B。LANI1 帧 头 寻 址 到 路 由 器 。 然 后 它 传 
送 此 帧 到 适配器 。 注 意 ，LANI 帧 的 有 效 载 荷 是 一 个 互联 网 络 包 ， 而 互联 网 络 包 的 有 效 载 
荷 是 实际 的 用 户 数据 。 这 种 封装 是 基本 的 网 络 互联 方法 之 一 。 

3) LANI1 适配器 复制 该 帧 到 网 络 上 。 

4) 当 此 帧 到 达 路 由 器 时 ， 路 由 器 的 LAN1 适配器 从 电缆 上 读 取 它 ， 并 把 它 传送 到 协 
议 软 件 。 

5) 路 由 器 从 互联 网 络 包 头 中 提取 出 目的 互联 网 络 地 址 ， 并 用 它 作为 路 由 表 的 索引 ， 
确定 向 哪里 转发 这 个 包 ， 在 本 例 中 是 LAN2。 路 由 器 剥落 旧 的 LANI1 的 帧 头 ， 加 上 寻 址 到 
主机 B 的 新 的 LAN2 帧 头 ， 并 把 得 到 的 帧 传送 到 适配器 。 

6) 路 由 器 的 LAN2 适配器 复制 该 帧 到 网 络 上 。 
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7) 当 此 帧 到 达 主 机 也 时 ， 它 的 适配器 从 电缆 上 读 到 此 帧 ， 并 将 它 传送 到 协议 软件 。 
8) 最 后 ， 主 机 了 上 的 协议 软件 剥落 包头 和 帧 头 。 当 服务 器 进行 一 个 读 取 这 些 数 据 的 
系统 调用 时 ， 协 议 软件 最 终 将 得 到 的 数据 复制 到 服务 器 的 虚拟 地 址 空间 。 





主机 A 主机 B 
客户 端 
(1) [数据 ] | _ (3) [BE 
互联 网 络 包 en 人 
天 一人 一 一 
(2) [数据 [Pt [rm | : (7) [TPn [real 
3 
LAN1 帧 Ey EE 
人 | 数据 |PH JPHIH La yr tt A/ 6) | 数据 |PH [PH2| 
(0 Ca TaT | Ca Te [ra] (5) 


协议 软件 


图 11-7 在 互联 网 络 上 ， 数 据 是 如 何 从 一 台 主 机 传送 到 另 一 台 主 机 的 (PH: 互联 网 络 包头 ; 
FH1，LANI1 的 帧 头 ; FH2: LAN2 的 帧 头 ) 


当然 ， 在 这 里 我 们 掩盖 了 许多 很 难 的 问题 。 如 果 不 同 的 网 络 有 不 同 帧 大 小 的 最 大 值 ， 该 怎 
么 办 呢 ? 路 由 器 如 何 知道 该 往 哪里 转发 帧 呢 ? 当 网 络 拓扑 变化 时 ， 如 何 通知 路 由 器 ? 如 果 一 个 
包 委 失 了 又 会 如 何 呢 ? 虽然 如 此 ， 我 们 的 示例 抓 住 了 互联 网 络 思想 的 精 茵 ， 封 装 是 关键 。 


11.3 全球 IP 因特网 

全 球 IP 因特网 是 最 著名 和 最 成 功 的 互联 网 络 实现 。 从 1969 年 起 ， 它 就 以 这 样 或 那样 
的 形式 存在 了 。 虽 然 因 特 网 的 内 部 体系 结构 复杂 而 且 不 断 变化 ， 但 是 自从 20 世纪 80 年 代 
早期 以 来 ， 客 户 端 -服务 器 应 用 的 组 织 就 一 直 保持 着 相当 的 稳定 。 图 11-8 展示 了 一 个 因 特 
网 客户 端 -服务 器 应 用 程序 的 基本 硬件 和 软件 组 织 。 


互联 网 络 客户 端 主 互联 网 络 服务 器 主机 


套 接 字 接口 
(系统 调用 ) 


硬件 接口 中断) 





图 11-8 一 个 因特网 应 用 程序 的 硬件 和 软件 组 织 
每 台 因 特 网 主机 都 运行 实现 TCP/IP 协议 (Transmission Control Protocol/ Internet 





Protocol， 传 输 控 制 协议 /互联 网 络 协 议 ) 的 软件 ， 几 乎 每 个 现代 计算 机 系统 都 支持 这 个 协 
议 。 因 特 网 的 客户 端 和 服务 器 混合 使 用 套 接 字 接 口 函 数 和 Unix 1/O 函数 来 进行 通信 (我 们 
将 在 11.4 节 中 介绍 套 接 字 接口 ) 。 通 常 将 套 接 字 函数 实现 为 系统 调用 ， 这 些 系 统 调用 会 陷 
人 人 内核， 并 调用 各 种 内 核 模式 的 TCP/IP 函数 。 

TCP/IP 实际 是 一 个 协议 族 ， 其 中 每 一 个 都 提供 不 同 的 功能 。 例 如 ，IP 协议 提供 基本 
的 命名 方法 和 递送 机 制 ， 这 种 递送 机 制 能 够 从 一 台 因 特 网 主机 往 其 他 主机 发 送 包 ， 也 叫做 
数据 报 (datagram) 。IP 机 制 从 某 种 意义 上 而 言 是 不 可 靠 的 ， 因 为 ， 如 果 数 据 报 在 网 络 中 丢 
失 或 者 重复 ， 它 并 不 会 试图 恢复 。UDP(Unreliable Datagram Protocol， 不 可 靠 数 据 报 协 
议 ) 稍 微 扩展 了 IP 协议 ， 这 样 一 来 ， 包 可 以 在 进程 间 而 不 是 在 主机 间 传 送 。TCP 是 一 个 构 
建 在 卫 之 上 的 复杂 协议 ， 提 供 了 进程 间 可 靠 的 全 双 工 (双向 的 ) 连 接 。 为 了 简化 讨论 ， 我 
们 将 TCP/IP 看 做 是 一 个 单独 的 整体 协议 。 我 们 将 不 讨论 它 的 内 部 工作 ， 只 讨论 TCP 和 
IP 为 应 用 程序 提供 的 某 些 基本 功能 。 我 们 将 不 讨论 UDP。 

从 程序 员 的 角度 ， 我 们 可 以 把 因特网 看 做 一 个 世界 范围 的 主机 集合 ， 满 足以 下 特性 : 

e 主机 集合 被 映射 为 一 组 32 位 的 IP 地 址 。 

e@ 这 组 IP 地 址 被 映射 为 一 组 称 为 因特网 域名 (Internet domain name) 的 标识 符 。 

e@ 因特网 主机 上 的 进程 能 够 通过 连接 (connection) 和 任何 其 他 因特网 主机 上 的 进程 通信 。 

接 下 来 三 节 将 更 详细 地 讨论 这 些 基 本 的 因特网 概念 。 


关注 着 CE 
最 初 的 因特网 协议 ， 使 用 32 位 地 址 ， 称 为 因特网 协议 版 本 4(Internet Protocol 
Version 4，IPv4)。1996 年 ， 因 特 网 工程 任务 组 织 (Internet Engineering Task Force， 
IETF) 提 出 了 一 个 新 版 本 的 IP， 称 为 因特网 协议 版 本 6(IPv6)， 它 使 用 的 是 128 位 地 址 ， 
意 在 替代 IPv4。 但 是 直到 2015 年 ， 大 约 20 年 后 ， 因 特 网 流量 的 绝 大 部 分 还 是 由 IPv4 
网 络 承 载 的 。 例 如 ， 只 有 4% 的 访问 Google 服务 的 用 户 使 用 IPv6 [42]。 
， 因为 IPv6 的 使 用 率 较 低 ， 本 书 不 会 讨论 IPv6 的 细节 ， 而 只 是 集中 注意 力 于 IPv4 
背后 的 概念 。 当 我 们 谈论 因特网 时 ， 我 们 指 的 是 基于 IPv4 的 因特网 。 但 是 ， 本 章 后 面 
介绍 的 书写 客户 端 和 服务 器 的 技术 是 基于 现代 接口 的 ， 与 任何 特殊 的 协议 无 关 。 


i131 也 地 才 


一 个 IP 地 址 就 是 一 个 32 位 无 符号 整数 。 网 络 程序 将 IP 地 址 存放 在 如 图 11-9 所 示 的 
IP 地 址 结构 中 。 

code/netp/netpfragmenits.c 

/* IP address structure */ 

struct in_addr { 

uint32_t s_addr; /* Address in network byte order (big-endian) */ 

}; 

code/netp/netpfragments.c 


图 11-9 IP 地址 结构 


把 一 个 标量 地 址 存放 在 结构 中 ， 是 套 接 字 接口 早期 实现 的 不 幸 产 物 。 为 IP 地 址 定义 一 
个 标量 类 型 应 该 更 有 意义 ， 但 是 现在 更 改 已 经 太 迟 了 ， 因 为 已 经 有 大 量 应 用 是 基于 此 的 。 

因为 因特网 主机 可 以 有 不 同 的 主机 字 节 顺序 ，TCP/ 了 P 为 任意 整数 数据 项 定义 了 统一 的 
网 络 字 节 顺 序 (network byte order)( 大 端 字 节 顺序 )， 例 如 IP 地 址 ， 它 放 在 包头 中 跨 过 网 络 被 
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携带 。 在 卫 地址 结构 中 存放 的 地 址 总 是 以 (大 端 法 ) 网 络 字 节 顺序 存放 的 ， 即 使 主机 字 节 顺序 
《host byte order) 是 小 端 法 。Unix 提供 了 下 面 这 样 的 函数 在 网 络 和 主机 字 节 顺序 间 实 现 转换 。 





#include <arpa/inet.h> 


uint32_t htonl(uint32_t hostlong); 
uint16_t htons(uint16_t hostshort); 
返回 : 按照 网 络 字 节 顺序 的 值 。 


uint32_t ntohl (uint32_t netlong); 
uint16_t ntohs(unit16_t netshort); 





返回 : 按照 主机 字 节 顺序 的 值 。 








hotnl 函数 将 32 位 整数 由 主机 字 节 顺序 转换 为 网 络 字 节 顺序 。ntohl 函数 将 32 位 整 
数 从 网 络 字 节 顺序 转换 为 主机 字 节 。htons 和 ntohs 函数 为 16 位 无 符号 整数 执行 相应 的 
转换 。 注 意 ， 没 有 对 应 的 处 理 64 位 值 的 函数 。 

IP 地 址 通常 是 以 一 种 称 为 点 分 十 进 制 表示 法 来 表示 的 ， 这 里 ， 每 个 字 节 由 它 的 十 进 
制 值 表示 ， 并 且 用 句点 和 其 他 字 节 间 分 开 。 例 如 ，128.2.194.242 就 是 地 址 0x8002c2f2 
的 点 分 十 进 制 表示 。 在 Linux 系统 上 ， 你 能 够 使 用 HOSTNAME 命令 来 确定 你 自己 主机 
的 点 分 十 进 制 地 址 : 


linux> hostname -i 
128.2.210.175 


应 用 程序 使 用 inet_pton 和 inet_ntop 函数 来 实现 卫 地址 和 点 分 十 进 制 串 之 间 的 转换 。 


#include <arpa/inet.h> 
int inet_pton(AF_INET, const char *src, void *dst); 
返回 : 若 成 功 则 为 1， 若 src 为 非法 点 分 十 进 制 地 址 则 为 0， 若 出 错 则 为 一 1。 


const char *inet_ntop(AF_INET, const void *src, char *dst, 
socklen_t size); 
返回 : 若 成 功 则 指向 点 分 十 进 制 字 符 串 的 指针 ， 若 出 错 则 为 NULL。 

















在 这 些 函 数 名 中 ,“n” 代 表 网 络 ,“p” 代 表 表 示 。 它 们 可 以 处 理 32 位 IPv4 地 址 (AF_IN- 
ET) (就 像 这 里 展示 的 那样 ) ， 或 者 128 位 IPv6 地 址 (AF_INET6) (这 部 分 我 们 不 讲 )。 
inet_pton 函数 将 一 个 点 分 十 进 制 串 (src) 转 换 为 一 个 二 进 制 的 网 络 字 节 顺 序 的 IP 地 
址 (dst)。 如 果 src 没有 指向 一 个 合法 的 点 分 十 进 制 字符 串 ， 那 么 该 函数 就 返回 0。 任 何 
其 他 错误 会 返回 一 1， 并 设置 errno。 相 似 地 ，inet_ntop 函数 将 一 个 二 进 制 的 网 络 字 节 
顺序 的 IP 地址 (src) 转 换 为 它 所 对 应 的 点 分 十 进 制 表示 ， 并 把 得 到 的 以 null 结尾 的 字符 串 
的 最 多 size 个 字 节 复制 到 dst。 
区 可 练习 题 11.1 完成 下 表 


Oxf EFFEEEE HO 
Ox7£000001 EE 


人 205 .188,160.121 
| 64.12.149.13 
| 205.166.146.23 














点 分 十 进 制 地 址 
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六 练习 题 11.2 编写 程序 hex2dq.c， 将 它 的 十 六 进 制 参数 转换 为 点 分 十 进 制 串 并 打印 
出 结果 。 例 如 
linux> ./hex2dd Ox8002c2f2 
128.2.194.242 

世相 练习 题 11. 3 编写 程序 dd2hex.c， 将 它 的 点 分 十 进 制 参数 转换 为 十 六 进 制 数 并 打印 
出 结果 。 例 如 


linux> ./dd2hex 128.2.194.242 
Ox8002c2f2 


11. 3.2 因特网 域名 


因特网 客户 端 和 服务 器 互相 通信 时 使 用 的 是 IP 地 址 。 然 而 ， 对 于 人 们 而 言 ， 大 整数 
是 很 难 记 住 的 ， 所 以 因特网 也 定义 了 一 组 更 加 人 性 化 的 域名 (domain name)， 以 及 一 种 将 
域名 映射 到 IP 地 址 的 机 制 。 域 名 是 一 串 用 句点 分 隔 的 单词 (字母 、 数 字 和 破 折 号 )， 例 如 
whaleshark.ics.cs.cmu.edu。 

域名 集合 形成 了 一 个 层次 结构 ， 每 个 域名 编码 了 它 在 这 个 层次 中 的 位 置 。 通 过 一 个 示 
例 你 将 很 容易 理解 这 点 。 图 11-10 展示 了 域名 层次 结构 的 一 部 分 。 层 次 结构 可 以 表示 为 一 
棵 树 。 树 的 节点 表示 域名 ， 反 向 到 根 的 路 径 形成 了 域名 。 子 树 称 为 子 域 (subdomain) 。 层 
次 结构 中 的 第 一 层 是 一 个 未 命名 的 根 节 点 。 下 一 层 是 一 组 一 级 域名 (first-level domain 
name)， 由 非 营 利 组 织 ICANN (Internet Corporation for Assigned Names and Numbers， 
因特网 分 配 名 字数 字 协 会 ) 定 义 。 常 见 的 第 一 层 域名 包括 com、edu、gov、org 和 net。 


未 命名 的 根 
mil edu gov com 第 一 层 域名 
mit cmu berkeley amazon 第 二 层 域名 
cs ece | 三 层 域名 
本 176.32.98.166 
ics pdl 


whaleshark Www 
128.2.210.175 ”128.2.131.66 


图 11-10 因特网 域名 层次 结构 的 一 部 分 


下 一 层 是 二 级 (second-level) 域 名 ， 例 如 cmu. edau， 这 些 域名 是 由 ICANN 的 各 个 授权 
代理 按照 先 到 先 服务 的 基础 分 配 的 。 一 旦 一 个 组 织 得 到 了 一 个 二 级 域名 ， 那 么 它 就 可 以 在 
这 个 子 域 中 创建 任何 新 的 域名 了 ， 例 如 cs .cmu.edu。 

因特网 定义 了 域名 集合 和 IP 地 址 集合 之 间 的 映射 。 直 到 1988 年 ， 这 个 映射 都 是 通过 
一 个 叫做 HosTS .TXT 的 文本 文件 来 手工 维护 的 。 从 那 以 后 ， 这 个 映射 是 通过 分 布 世 界 范 
围 内 的 数据 库 ( 称 为 DNS(Domain Name System， 域 名 系统 )) 来 维护 的 。 从 概念 上 而 言 ， 
DNS 数据 库 由 上 百 万 的 主机 条 目 结构 (host entry structure) 组 成 ， 其 中 每 条 定义 了 一 组 域 
名 和 一 组 IP 地 址 之 间 的 映射 。 从 数学 意义 上 讲 ， 可 以 认为 每 条 主机 条 目 就 是 一 个 域名 和 
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IP 地 址 的 等 价 类 。 我 们 可 以 用 Linux 的 NSLOOKUP 程序 来 探究 DNS 映射 的 一 些 属性 ， 
这 个 程序 能 展示 与 某 个 IP 地 址 对 应 的 域名 。9 

每 台 因 特 网 主机 都 有 本 地 定义 的 域名 localhost， 这 个 域名 总 是 映射 为 回 送 地 址 
(loopback address)127.0.0.1: 


linux> nslookup localhost 
Address: 127.0.0.1 


localhost 名 字 为 引用 运行 在 同一 台 机 器 上 的 客户 端 和 服务 器 提供 了 一 种 便利 和 可 移植 
的 方式 ， 这 对 调试 相当 有 用 。 我 们 可 以 使 用 HOSTNAME 来 确定 本 地 主机 的 实际 域名 : 


linux> hostname 
whaleshark.ics.cs.cmu.edu 
在 最 简单 的 情况 中 ， 一 个 域名 和 一 个 IP 地 址 之 间 是 一 一 映射 : 


linux> nslookup whaleshark.ics.cs.cmu.edu 
Address: 128.2.210.175 


然而 ， 在 某 些 情况 下 ， 多 个 域名 可 以 映射 为 同一 个 IP 地 址 : 


linux> nslookup cs.mit.edu 
Address: 18.62.1.6 


linux> nslookup eecs.mit.edu 
Address: 18.62.1.6 


在 最 通常 的 情况 下 ， 多 个 域名 可 以 映射 到 同一 组 的 多 个 IP 地 址 : 
linux> nslookup www.twitter.com 
Address: 199.16.156.6 
Address: 199.16.156.70 
Address: 199.16.156.102 
Address: 199.16.156.230 


linux> nslookup twitter.com 
Address: 199.16.156.102 
Address: 199.16.156.230 
Address: 199.16.156.6 
Address: 199.16.156.70 
最 后 ， 我 们 注意 到 某 些 合法 的 域名 没有 映射 到 任何 IP 地址; 


linux> nslookup edu 

水 水 六 Can't find edu: No answer 

linux> nslookup ics.cs.cmu.edu 

** 水 Can't find ics.cs.cmu.edu: No answer 


苹 有 多 少 因 特 网 主机 ? 

因特网 软件 协会 (Internet Software Consortium，www. isc. org) 自从 1987 年 以 后 ， 每 年 进 
行 两 次 因特网 域名 调查 。 这 个 调查 通过 计算 已 经 分 配给 一 个 域名 的 上 地 址 的 数量 来 估算 因 特 
网 主机 的 数量 ， 展 示 了 一 种 令 人 吃惊 的 趋势 。 自 从 1987 年 以 来 ， 当 时 一 共 大 约 有 20 000 台 因 特 
网 主机 ， 主 机 的 数量 已 经 在 指数 性 增长 。 到 2015 年 ， 已 经 有 大 约 1 000 000 000 台 因特网 主机 了 。 


日 ”我 们 重新 调整 了 NSLOOKUP 的 输出 以 提高 可 读 性 。 
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11.3.3 因特网 连接 


因特网 客户 端 和 服务 器 通过 在 连接 上 发 送 和 接收 字 节 流 来 通信 。 从 连接 一 对 进程 的 意 
义 上 而 言 ， 连 接 是 点 对 点 的 。 从 数据 可 以 同时 双向 流动 的 角度 来 说 ， 它 是 全 双 工 的 。 并 且 
从 (除了 一 些 如 粗心 的 耕 铀 机 操作 员 切 断 了 电缆 引起 灾难 性 的 失败 以 外 ) 由 源 进程 发 出 的 字 
节 流 最 终 被 目的 进程 以 它 发 出 的 顺序 收 到 它 的 角度 来 说 ， 它 也 是 可 靠 的 。 

一 个 套 接 字 是 连接 的 一 个 端点 。 每 个 套 接 字 都 有 相应 的 套 接 字 地 址 ， 是 由 一 个 因特网 
地 址 和 一 个 16 位 的 整数 端口 9 组 成 的 ， 用 “地 址 : 端口 ”来 表示 。 

当 客 户 端 发 起 一 个 连接 请 求 时 ， 客 户 端 套 接 字 地 址 中 的 端口 是 由 内 核 自动 分 配 的 ， 称 
为 临时 端口 (ephemeral port)。 然 而 ， 服 务 器 套 接 字 地 址 中 的 端口 通常 是 某 个 知名 端口 ， 
是 和 这 个 服务 相对 应 的 。 例 如 ，Web 服务 器 通常 使 用 端口 80 ， 而 电子 邮件 服务 器 使 用 端 
口 25。 每 个 具有 知名 端口 的 服务 都 有 一 个 对 应 的 知名 的 服务 名 。 例 如 ，Web 服务 的 知名 
名 字 是 http，email 的 知名 名 字 是 smtp。 文 件 /etc/services 包含 一 张 这 台 机 器 提供 的 
知名 名 字 和 知名 端口 之 间 的 映射 。 

一 个 连接 是 由 它 两 端的 套 接 字 地 址 唯一 确定 的 。 这 对 套 接 字 地 址 叫做 套 接 字 对 (socket 
pair)， 由 下 列 元 组 来 表示 : 


(cliaddr: cliport, servaddr:servport) 


其 中 cliadqr 是 客户 端的 IP 地 址 ，cliport 是 客户 端的 端口 ，servaddr 是 服务 器 的 IP 
地 址 ， 而 servport 是 服务 器 的 端口 。 例 如 ， 图 11-11 展示 了 一 个 Web 客户 端 和 一 个 Web 
服务 器 之 间 的 连接 。 


客户 端 套 接 字 地 址 服务 器 套 接 字 地 址 
128.2.194.242:51213 208.216.181.15:80 


服务 器 
(port 80) 
















上 . 3 并 
a “al 
1 | 






连接 套 接 字 对 
| (128.2.194.242:51213, 208.216.181.15:80) | 


客户 端 主机 地 址 服务 器 主机 地 址 
128.2.194.242 208.216.181.15 


图 11-11 因特网 连接 分 析 
在 这 个 示例 中 ，Web 客户 端的 套 接 字 地 址 是 
128.2.194.242:51213 


其 中 端口 号 51213 是 内 核 分 配 的 临时 端口 号 。Web 服务 器 的 套 接 字 地 址 是 
208.216.181.15:80 


其 中 端口 号 80 是 和 Web 服务 相关 联 的 知名 端口 号 。 给 定 这 些 客户 端 和 服务 器 套 接 字 地 
址 ， 客 户 端 和 服务 器 之 间 的 连接 就 由 下 列 套 接 字 对 唯一 确定 了 : 
(128.2.194.242:51213，208.216.181.15:80) 


| 旁 注 | 因特网 的 起 源 
因特网 是 政府 、 学 校 和 工业 界 合作 的 最 成 功 的 示例 之 一 。 它 成 功 的 因素 很 多 ,但 是 
我 们 认为 有 两 点 尤其 重要 : 美国 政府 30 年 持续 不 变 的 投资 ， 以 及 充满 激情 的 研究 人 员 





日 ”这 些 软件 端口 与 网 络 中 交换 机 和 路 由 器 的 硬件 端口 没有 关系 。 
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对 麻 省 理工 学 院 的 Dave Clarke 提出 的 “粗略 一 致 和 能 用 的 代码 ”的 投入 。 

因特网 的 种 子 是 在 1957 年 播 下 的 ， 其 时 正 值 冷 战 的 高 峰 ， 苏 联 发 射 Sputnik， 第 一 颗 人 
造 地 球 卫 星 ， 震 惊 了 世界 。 作 为 响应 ， 美 国政 府 创 建 了 高 级 研究 计划 署 (ARPA)， 其 任务 就 
是 重建 美国 在 科学 与 技术 上 的 领导 地 位 。1967 年 ，ARPA 的 Lawrence Roberts 提出 了 一 个 计 
划 ， 建 立 一 个 叫做 ARPANET 的 新 网 络 。 第 一 个 ARPANET 节点 是 在 1969 年 建立 并 运行 的 。 
到 1971 年 ， 已 有 13 个 ARPANET 节 点， 而 且 email 作为 第 一 个 重要 的 网 络 应 用 涌现 出 来 。 

1972 年 ，Robert Kahn 概括 了 网 络 互联 的 一 般 原则 : 一 组 互相 连接 的 网 络 ， 通 过 叫 
做 “路 由 器 ”的 黑 盒 子 按照 “以 尽力 传送 作为 基础 ”在 互相 独立 处 理 的 网 络 间 实 现 通 
信 。1974 年，Kahn 和 Vinton Cerf 发 表 了 TCP/IP 协议 的 第 一 本 详细 资料 ， 到 1982 年 
它 成 为 了 ARPANET 的 标准 网 络 互联 协议 。1983 年 1 月 1 日 ， ARPANET 的 每 个 节点 
都 切换 到 TCP/IP， 标 志 着 全 球 IP 因特网 的 诞生 。 

1985 年 ，Paul Mockapetris 发 明了 DNS， 有 1000 多 台 因 特 网 主机 。1986 年 ， 国 家 
科学 基金 会 (NSF) 用 56KB/s 的 电话 线 连接 了 13 个 节点 ， 构 建 了 NSFNET 的 骨干 网 。 
其 后 在 1988 年 升级 到 1. 5MB/s T1 的 连接 速率 ，1991 年 为 45MB/s T3 的 连接 速率 。 到 
1988 年 ， 有 超过 50 000 台 主 机 。1989 年 ， 原 始 的 ARPANET 正式 退休 了 。1995 年 ， 
已 经 有 几乎 10 000 000 台 因 特 网 主机 了 ，NSF 取消 了 NSFNET， 并 且 用 基于 由 公众 网 
络 接 入 点 连接 的 私有 商业 骨干 网 的 现代 因特网 架构 取代 了 它 。 


11. 4 套 接 字 接 口 


套 接 字 接 口 (socket interface) 是 一 组 函数 ， 它 们 和 Unix 1/O 函数 结合 起 来 ， 用 以 创建 
网 络 应 用 。 大 多 数 现 代 系 统 上 都 实现 套 接 字 接 口 ， 包 括 所 有 的 Unix 变种 、Windows 和 
Macintosh 系统 。 图 11-12 给 出 了 一 个 典型 的 客户 端 -服务 器 事务 的 上 下 文中 的 套 接 字 接 口 
概述 。 当 讨论 各 个 函数 时 ， 你 可 以 使 用 这 张 图 来 作为 向 导 图 。 


客户 端 服务 器 















open_listenfd 
open_clientfqd 


等 待 来 自 下 一 个 
客户 端的 连接 请 求 


图 11-12 ”基于 套 接 字 接口 的 网 络 应 用 概述 
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区 要 套 接 字 接口 的 起 源 

套 接 字 接口 是 加 州 大 学 伯克利 分 校 的 研究 人 员 在 20 世纪 80 年 代 早 期 提出 的 。 因 为 
这 个 原因 ， 它 也 经 常 被 叫做 伯克利 套 接 字 。 伯 克利 的 研究 者 使 得 套 接 字 接 口 适用 于 任何 
底层 的 协议 。 第 一 个 实现 的 就 是 针对 TCP/IP 协议 的 ， 他 们 把 它 包 括 在 Unix 4. 2BSD 的 
内 核 里 ， 并 且 分 发 给 许多 学 校 和 实验 室 。 这 在 因特网 的 历史 上 是 一 个 重大 事件 。 几 乎 一 
夜 之 间 ， 成 千 上 万 的 人 们 接触 到 了 TCP/IP 和 它 的 源 代码 。 它 引起 了 巨大 的 囊 动 ， 并 激 
发 了 新 的 网 络 和 网 络 互联 研究 的 浪潮 。 


11.4. 1 套 接 字 地 址 结构 


从 Linux 内 核 的 角度 来 看 ， 一 个 套 接 字 就 是 通信 的 一 个 端点 。 从 Linux 程序 的 角度 来 
看 ， 套 接 字 就 是 一 个 有 相应 描述 符 的 打开 文件 。 

因特网 的 套 接 字 地 址 存放 在 如 图 11-13 所 示 的 类 型 为 sockaddr_ in 的 16 字 节 结构 中 。 
对 于 因特网 应 用 ，sin family 成 员 是 AF_INET，sin port 成 员 是 一 个 16 位 的 端口 号 ， 
而 sin_addr 成 员 就 是 一 个 32 位 的 JP 地址 。IP 地 址 和 端口 号 总 是 以 网 络 字 节 顺序 (大 端 
法 ) 存 放 的 。 


code/netp/netpfragments.c 
/* IP socket address structure */ 
struct sockaddr_in { 


uint16_t sin_family; /* Protocol family (always AF_INET) */ 
uint16_t sin_port; /* Port number in network byte order */ 
struct in_addr sin_addr; /* IP address in network byte order */ 


unsigned char sin_zero[8]; /* Pad to sizeof(struct sockaddr) */ 


二 


/* Generic socket address structure (for connect, bind, and accept) */ 
struct sockaddr { 
Uint1i6_t sa_family; /* Protocol family */ 
char sa_data[14]; /* Address data */ 
所 
code/netp/netpfragments.c 
图 11-13 ” 套 接 字 地 址 结构 


| 装 注 _in 后 缀 意味 什么 ? 


_in 后 组 是 互联 网 络 (internet) 的 缩写 ， 而 不 是 输入 (input) 的 缩写 。 


connect、bind 和 accept 函数 要 求 一 个 指向 与 协议 相关 的 套 接 字 地 址 结构 的 指针 。 
套 接 字 接 口 的 设计 者 面临 的 问题 是 ， 如 何 定义 这 些 函 数 ， 使 之 能 接受 各 种 类 型 的 套 接 字 地 
址 结构 。 今 天 我 们 可 以 使 用 通用 的 voidx 指针 ， 但 是 那 时 在 C 中 并 不 存在 这 种 类 型 的 指 
针 。 解 决 办 法 是 定义 套 接 字 函 数 要 求 一 个 指向 通用 sockaddr 结构 (图 11-13) 的 指针 ， 然 
后 要 求 应 用 程序 将 与 协议 特定 的 结构 的 指针 强制 转换 成 这 个 通用 结构 。 为 了 简化 代码 示 
例 ， 我 们 跟随 Steven 的 指导 ， 定 义 下 面 的 类 型 

typedef struct sockaddr SA; 


然后 无 论 何 时 需要 将 sockaddr_in 结构 强制 转换 成 通用 sockaddr 结构 时 ， 我 们 都 使 用 
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11. 4.2 ”socket 函数 
客户 端 和 服务 器 使 用 socket 函数 来 创建 一 个 套 接 字 描 述 符 (socket descriptor) 。 





#include <sys/types.h> 
#include <sys/socket.h> 


int socket(int domain, int type, int protocol); 
返回 : 若 成 功 则 为 非 负 描述 符 ， 若 出 错 则 为 一 1。 





如 果 想 要 使 套 接 字 成 为 连接 的 一 个 端点 ， 就 用 如 下 硬 编码 的 参数 来 调用 socket 函数 : 
clientfd = Socket (AF_INET, SOCK_STREAM, 0); 
其 中 ，AF_INET 表明 我 们 正在 使 用 32 位 IP 地 址 ， 而 SOCK_STREAM 表示 这 个 套 接 字 
是 连接 的 一 个 端点 。 不 过 最 好 的 方法 是 用 getaddrinfo 函数 (11.4.7 节 ) 来 自动 生成 这 些 
参数 ， 这 样 代码 就 与 协议 无 关 了 。 我 们 会 在 11. 4. 8 节 中 向 你 展示 如 何 配 合 socket 函数 来 


使 用 getaddrinfo。 
socket 返回 的 clientfd 描述 符 仅 是 部 分 打开 的 ， 还 不 能 用 于 读 写 。 如 何 完成 打开 


套 接 字 的 工作 ， 取 决 于 我 们 是 客户 端 还 是 服务 器 。 下 一 节 描 述 当 我 们 是 客户 端 时 如 何 完成 
打开 套 接 字 的 工作 。 


11. 4.3 ”connect 函数 
客户 端 通过 调用 connect 函数 来 建立 和 服务 器 的 连接 。 


#include <sys/socket.h> 


int connect(int clientfd, const struct sockaddr *addr, 


socklen_t addrlen); 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 











connect 函数 试图 与 套 接 字 地 址 为 addr 的 服务 器 建立 一 个 因特网 连接 ， 其 中 addrlen 
是 sizeof (sockaddr in)。connect 函数 会 阻塞 ， 一 直到 连接 成 功 建立 或 是 发 生 错误 。 如 果 
成 功 ，clientfd 描述 符 现在 就 准备 好 可 以 读 写 了 ， 并 且 得 到 的 连接 是 由 套 接 字 对 


(x:y, addr.sin_addr:addr.sin_port) 
刻画 的 ， 其 中 x 表示 客户 端的 IP 地址 ， 而 y 表示 临时 端口 ， 它 唯一 地 确定 了 客户 端 主机 
上 的 客户 端 进 程 。 对 于 socket， 最 好 的 方法 是 用 getaddrinfo 来 为 connect 提供 参数 
( 见 11. 4. 8 节 )。 
11.4.4 bind 函数 


剩 下 的 套 接 字 函 数 





bind、listen 和 accept， 服 务 器 用 它们 来 和 客户 端 建立 连接 。 








#include <sys/socket.h> 


int bind(int sockfd, const struct sockaddr *addr, 
socklen_t addrlen); 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 





第 11 章 网 络 编 程 655 





bind 函数 告诉 内 核 将 addr 中 的 服务 器 套 接 字 地 址 和 套 接 字 描 述 符 sockfd 联系 起 
来 。 参 数 addrlen 就 是 sizeof (sockaddr in)。 对 于 socket 和 connect， 最 好 的 方法 
是 用 getaddrinfo 来 为 bind 提供 参数 ( 见 11. 4. 8 节 )。 


11.4.5 1isten 函数 


客户 端 是 发 起 连接 请 求 的 主动 实体 。 服 务 器 是 等 待 来 自 客户 端的 连接 请 求 的 被 动 实 
体 。 默 认 情 况 下 ， 内 核 会 认为 socket 函数 创建 的 描述 符 对 应 于 主动 套 接 字 (active sock- 
et) ， 它 存在 于 一 个 连接 的 客户 端 。 服 务 器 调用 1isten 函数 告诉 内 核 ， 描 述 符 是 被 服务 器 
而 不 是 客户 端 使 用 的 。 





#include <sys/socket.h> 


int listen(int sockfd, int backlog); 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 








listen 国 数 将 sockfd 从 一 个 主动 套 接 字 转 化 为 一 个 监听 套 接 字 (listening socket)， 
该 套 接 字 可 以 接受 来 自 客户 端的 连接 请 求 。backlog 参数 暗示 了 内 核 在 开始 拒绝 连接 请 求 
之 前 ， 队 列 中 要 排队 的 未 完成 的 连接 请 求 的 数量 。backlog 参数 的 确切 含义 要 求 对 TCP/ 
IP 协议 的 理解 ， 这 超出 了 我 们 讨论 的 范围 。 通 常 我 们 会 把 它 设置 为 一 个 较 大 的 值 ， 比 
如 1024。 


11. 4.6 accept 函数 
服务 器 通过 调用 accept 函数 来 等 待 来 自 客 户 端的 连接 请 求 。 


#include <sys/socket.h> 


int accept(int listenfd, struct sockaddr *addr, int *addrlen); 


返回 : 若 成 功 则 为 非 负 连接 描述 符 ， 若 出 错 则 为 一 1。 








accept 函数 等 待 来 自 客 户 端的 连接 请 求 到 达 侦 听 描 述 符 1istenfd， 然 后 在 addr 中 
填写 客户 端的 套 接 字 地 址 ， 并 返回 一 个 已 连接 描述 符 (connected descriptor) ， 这 个 描述 符 
可 被 用 来 利用 Unix I1/O 函数 与 客户 端 通信 。 

监听 描述 符 和 已 连接 描述 符 之 间 的 区 别 使 很 多 人 感到 迷惑 。 监 听 描 述 符 是 作为 客户 端 
连接 请 求 的 一 个 端点 。 它 通常 被 创建 一 次 ， 并 存在 于 服务 器 的 整个 生命 周期 。 已 连接 描述 
符 是 客户 端 和 服务 器 之 间 已 经 建立 起 来 了 的 连接 的 一 个 端点 。 服 务 器 每 次 接受 连接 请 求 时 
都 会 创建 一 次 ， 它 只 存在 于 服务 器 为 一 个 客户 端 服务 的 过 程 中 。 

图 11-14 描绘 了 监听 描述 符 和 已 连接 描述 符 的 角色 。 在 第 一 步 中 ， 服 务 器 调用 
accept， 等 待 连接 请 求 到 达 监 听 描 述 符 ， 具 体 地 我 们 设 定 为 描述 符 3。 回 忆 一 下 ， 描 述 符 
0 一 2 是 预 留 给 了 标准 文件 的 。 

在 第 二 步 中 ， 客 户 端 调用 connect 函数 ， 发 送 一 个 连接 请 求 到 1istenfd。 第 三 步 ， 
accept 函数 打开 了 一 个 新 的 已 连接 描述 符 connfd( 我 们 假设 是 描述 符 4), 在 clientfd 
和 connfd 之 间 建 立 连接 ， 并 且 随 后 返回 connfd 给 应 用 程序 。 客 户 端 也 从 connect 返回 ， 
在 这 一 点 以 后 ， 客 户 端 和 服务 器 就 可 以 分 别 通过 读 和 写 clientfd 和 connfd 来回 传 送 数 
据 了 。 
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listenfd(3) 
0 1. 服务 器 阻塞 在 accept， 等 待 监听 
客户 端 服务 器 描述 符 1istenfd 上 的 连接 请 求 。 


clientfd 


i 9 2. 客户 端 通过 调用 和 阻塞 在 connect， 
客户 端 服务 器 创建 连接 请 求 。 


pie 3. 服务 器 从 accept 返回 connfd。 客 户 端 


客户 端 从 connect 返回 。 现 在 在 clientfd 和 


connfd 之 间 已 经 建立 起 了 连接 。 
clientfa connfd(4) 


图 11-14 ”监听 描述 符 和 已 连接 描述 符 的 角色 


臣下 为 何 要 有 监听 描述 符 和 已 连接 描述 符 之 间 的 区 别 ? 

你 可 能 很 想 知 道 为 什么 套 接 字 接口 要 区 别 监 听 描 述 符 和 已 连接 描述 符 。 乍 一 看 ， 这 
像 是 不 必要 的 复杂 化 。 然 而 ， 区 分 这 两 者 被 证 明 是 很 有 用 的 ， 因 为 它 使 得 我 们 可 以 建立 
并 发 服务 器 ， 它 能 够 同时 处 理 许多 客户 端 连接 。 例 如 ， 每 次 一 个 连接 请 求 到 达 监 听 描述 
符 时 ， 我 们 可 以 派生 (fork) 一 个 新 的 进程 ， 它 通过 已 连接 描述 符 与 客户 端 通信 。 在 第 12 
章 中 将 介绍 更 多 关于 并 发 服务 器 的 内 容 。 


11. 4.7 主机 和 服务 的 转换 


Linux 提供 了 一 些 强大 的 函数 ( 称 为 getaddrinfo 和 getnameinfo) 实 现 二 进 制 套 接 字 地 
址 结构 和 主机 名 、 主 机 地 址 、 服 务 名 和 端口 号 的 字符 串 表示 之 间 的 相互 转化 。 当 和 套 接 字 接 
口 一 起 使 用 时 ， 这 些 函 数 能 使 我 们 编写 独立 于 任何 特定 版 本 的 全 协议 的 网 络 程序 。 

1. getaddrinfo 函数 

getaddrinfo 函数 将 主机 名 、 主 机 地 址 、 服 务 名 和 端口 号 的 字符 串 表 示 转 化 成 套 接 
字 地 址 结构 。 它 是 已 弃 用 的 gethostbyname 和 getservbyname 图 数 的 新 的 替代 品 。 和 以 
前 的 那些 函数 不 同 ， 这 个 函数 是 可 重 人 的 ( 见 12.7.2 节 )， 适 用 于 任何 协议 。 





#include <sys/types.h> 
#include <sys/socket.h> 
#include <netdb.h> 


int getaddrinfo(const char *host, const char *service, 
const struct addrinfo *hints, 
struct addrinfo **result); 
返回 : 如 果 成 功 则 为 0， 如 果 错 误 则 为 非 零 的 错误 代码 。 


void freeaddrinfo(struct addrinfo *result); 
返回 : 无 。 


const char *gai_strerror(int errcode) ; 





返回 : 错误 消息 。 








给 定 host 和 service( 套 接 字 地 址 的 两 个 组 成 部 分 )，getaddrinfo 返回 result， 
result 一 个 指向 addrinfo 结构 的 链表 ， 其 中 每 个 结构 指向 一 个 对 应 于 host 和 service 
的 套 接 字 地 址 结构 (图 11-15) 。 
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addrinfo 结 构 









套 接 字 地 址 结构 


al Canonname 


ai addr 












图 11-15 ”getaqddrinfo 返回 的 数据 结构 


在 客户 端 调用 了 getaqqrinfo 之 后 ， 会 遍历 这 个 列表 ， 依 次 尝试 每 个 套 接 字 地 址 ， 直 到 调 
用 socket 和 connect 成 功 ， 建 立 起 连接 。 类 似 地 ， 服 务 器 会 尝试 遍历 列表 中 的 每 个 套 接 字 地 
址 ， 直 到 调用 socket 和 pbind 成 功 ， 描 述 符 会 被 绑 定 到 一 个 合法 的 套 接 字 地 址 。 为 了 避免 内 存 
泄漏 ， 应 用 程序 必须 在 最 后 调用 freeaddrinfo， 释 放 该 链表 。 如 果 getaddrinfo 返回 非 零 的 
错误 代码 ， 应 用 程序 可 以 调用 gai_streeror， 将 该 代码 转换 成 消息 字符 串 。 
getaddrinfo 的 host 参数 可 以 是 域名 ,也 可 以 是 数字 地 址 (如 点 分 十 进 制 IP 地 址 )。 
service 参数 可 以 是 服务 名 (如 http)， 也 可 以 是 十 进 制 端口 号 。 如 果 不 想 把 主机 名 转换 成 地 
址 ， 可 以 把 host 设置 为 NULL。 对 service 来 说 也 是 一 样 。 但 是 必须 指定 两 者 中 至 少 一 个 。 
可 选 的 参数 hints 是 一 个 addrinfo 结构 ( 见 图 11-16)， 它 提供 对 getaddrinfo 返回 
的 套 接 字 地 址 列表 的 更 好 的 控制 。 如 果 要 传递 hints 参数 ， 只 能 设置 下 列 字段 ; ai_fam- 
ily、ai_socktype、ai_ protocol 和 ai_flags 字段 。 其 他 字段 必须 设置 为 0( 或 
NULL) 。 实 际 中 ， 我 们 用 memset 将 整个 结构 清 零 ， 然 后 有 选择 地 设置 一 些 字段 : 
e getaddrinfo 默认 可 以 返回 IPv4 和 IPv6 套 接 字 地 址 。ai family 设置 为 AF_IN- 
ET 会 将 列表 限制 为 IPv4 地 址 ; 设置 为 AF _ INET6 则 限制 为 IPv6 地 址 。 
@ 对 于 host 关联 的 每 个 地 址 ，getaddrinfo 函数 默认 最 多 返回 三 个 addrinfo 结构 ， 
每 个 的 ai socktype 字段 不 同 : 一 个 是 连接 ,一 个 是 数据 报 ( 本 书 未 讲述 )， 一 个 
是 原始 套 接 字 ( 本 书 未 讲述 )。ai_socktype 设置 为 SOCK_STREAM 将 列表 限制 为 
对 每 个 地 址 最 多 一 个 addrinfo 结构 ， 该 结构 的 套 接 字 地 址 可 以 作为 连接 的 一 个 端 
点 。 这 是 所 有 示例 程序 所 期 望 的 行为 。 
e ai flags 字段 是 一 个 位 掩 码 ， 可 以 进一步 修改 默认 行为 。 可 以 把 各 种 值 用 OR 组 
合 起 来 得 到 该 掩 码 。 下 面 是 一 些 我 们 认为 有 用 的 值 : 
AL ADDRCONFIG。 如 果 在 使 用 连接 ， 就 推荐 使 用 这 个 标志 [34]j。 它 要 求 只 有 当 
本 地 主机 被 配置 为 IPv4 时 ，getaddrinfo 返回 IPv4 地 址 。 对 IPv6 也 是 类 似 。 
AI CANONNAME。ai canonname 字段 默认 为 NULL。 如 果 设 置 了 该 标志 ， 
就 是 告诉 getaddrinfo 将 列表 中 第 一 个 addrinfo 结构 的 ai _canonname 字段 指向 
host 的 权威 (官方 ) 名 字 ( 见 图 11-15)。 
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AL NUMERICSERV。 参 数 service 默认 可 以 是 服务 名 或 端口 号 。 这 个 标志 
强制 参数 service 为 端口 号 。 

Al PASSIVE。getaddrinfo 默认 返回 套 接 字 地 址 ， 客 户 端 可 以 在 调用 connect 
时 用 作 主 动 套 接 字 。 这 个 标志 告诉 该 函数 ， 返 回 的 套 接 字 地 址 可 能 被 服务 器 用 作 监 
听 套 接 字 。 在 这 种 情况 中 ， 参 数 host 应 该 为 NULL。 得 到 的 套 接 字 地 址 结构 中 的 
地 址 字段 会 是 通配符 地 址 (wildcard address) ， 告 诉 内 核 这 个 服务 器 会 接受 发 送 到 该 
主机 所 有 IP 地 址 的 请 求 。 这 是 所 有 示例 服务 器 所 期 望 的 行为 。 


code/netp/netpfragments.c 
struct addrinfo { 


int ai_flags; /* Hints argument flags */ 

int ai_family; /* First arg to socket function */ 
int ai_socktype; /* Second arg to socket function */ 
int ai_protocol; /* Third arg to socket function */ 
char *ai_canonname; /* Canonical hostname */ 

size_t ai_addrlen; /* Size of ai_addr struct */ 

struct sockaddr *ai_addr; /* Ptr to socket address structure */ 
struct addrinfo *ai_next; /* Ptr to next item in linked list */ 


}; 
code/netp/netpfragments.c 


图 11-16 getaddrinfo 使 用 的 addrinfo 结构 


当 getaddrinfo 创建 输出 列表 中 的 addrinfo 结构 时 ， 会 填写 每 个 字段 ， 除 了 ai_ 
flags。ai_addr 字段 指向 一 个 套 接 字 地 址 结构 ，ai_addrlen 字段 给 出 这 个 套 接 字 地 址 
结构 的 大 小 ， 而 ai_next 字段 指向 列表 中 下 一 个 addrinfo 结构 。 其 他 字段 描述 这 个 套 接 
字 地 址 的 各 种 属性 。 

getaddrinfo 一 个 很 好 的 方面 是 addrinfo 结构 中 的 字段 是 不 透明 的 ， 即 它们 可 以 直 
接 传递 给 套 接 字 接口 中 的 函数 ， 应 用 程序 代码 无 需 再 做 任何 处 理 。 例 如 ，ai_ family、ai_ 
socktype 和 ai protocol 可 以 直接 传递 给 socket。 类 似 地 ，ai addr 和 ai addrlen 
可 以 直接 传递 给 connect 和 bindq。 这 个 强大 的 属性 使 得 我 们 编写 的 客户 端 和 服务 器 能 够 
独立 于 某 个 特殊 版 本 的 IP 协议 。 

2. getnameinfo 函数 

getnameinfo 函数 和 getaddrinfo 是 相反 的 ， 将 一 个 套 接 字 地 址 结构 转换 成 相应 的 
主机 和 服务 名 字符 串 。 它 是 已 弃 用 的 gethostbyaddr 和 getservbyport 函数 的 新 的 替代 
品 ， 和 以 前 的 那些 函数 不 同 ， 它 是 可 重 人 和 与 协议 无 关 的 。 





#include <sys/socket.h> 
#include <netdb.h> 


int getnameinfo(const struct sockaddr *sa, socklen_t salen, 
char *host, size_t hostlen, 
char *service, size_t servlen, int flags); 
返回 : 如 果 成 功 则 为 0， 如 果 错 误 则 为 非 零 的 错误 代码 。 











参数 sa 指向 大 小 为 salen 字 节 的 套 接 字 地 址 结构 ，host 指向 大 小 为 nostlen 字 节 的 组 
冲 区 ，service 指向 大 小 为 servlen 字 节 的 缓冲 区 。getnameinfo 函数 将 套 接 字 地 址 结构 sa 
转换 成 对 应 的 主机 和 服务 名 字符 串 ， 并 将 它们 复制 到 host 和 servcice 缓冲 区 。 如 果 getnam- 
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einfo 返回 非 零 的 错误 代码 ， 应 用 程序 可 以 调用 gai_strerror 把 它 转化 成 字符 串 。 
如 果 不 想 要 主机 名 ， 可 以 把 host 设置 为 NULL，hostlen 设置 为 0。 对 服务 字段 来 
说 也 是 一 样 。 不 过 ， 两 者 必须 设置 其 中 之 一 。 
参数 flags 是 一 个 位 掩 码 ， 能 够 修改 默认 的 行为 。 可 以 把 各 种 值 用 OR 组 合 起 来 得 到 
该 掩 码 。 下 面 是 两 个 有 用 的 值 : 
e NIL NUMERICHOST。getnameinfo 默认 试图 返回 host 中 的 域名 。 设 置 该 标志 会 
使 该 函数 返回 一 个 数字 地 址 字符 串 。 
e NLNUMERICSERV。getnameinfo 默认 会 检查 /etc/services， 如 果 可 能 ， 会 返回 
服务 名 而 不 是 端口 号 。 设 置 该 标志 会 使 该 函数 跳 过 查找 ， 简 单 地 返回 端口 号 。 
图 11-17 给 出 了 一 个 简单 的 程序 ， 称 为 HOSTINFO， 它 使 用 getaddrinfo 和 getnameinfo 
展示 出 域名 到 和 它 相 关联 的 IP 地 址 之 间 的 映射 。 该 程序 类 似 于 11. 3.2 节 中 的 NSLOOKUP 
程序 。 





code/netp/hostinfo.c 


1 #include "csapp.h" 

3 int main(int argc, char **argVv) 

4 

| struct addrinfo *p, *listp, hints; 

6 char buf [MAXLINE] ; 

采 int rc, flags; 

8 

9 if (argc != 2) { 

10 fprintf (stderr, "usage: %s <domain name>\n", argv[0]); 

11 exit (0); 

12 } 

13 

14 /* Get a list of addrinfo records */ 

15 memset (&hints, 0, sizeof(struct addrinfo)); 

16 hints.ai_family = AF_INET; /* IPv4 only */ 

17 hints.ai_socktype = SOCK_STREAM; /* Connections only */ 

18 if ((rc = getaddrinfo(argv[1], NULL, &hints, &listp)) != 0) { 
19 fprintf(stderr, "getaddrinfo error: %s\n", gai_strerror(rc)); 
20 exit (1); 

21 上 

74 

23 /* Walk the list and display each IP address */ 

24 flags = NI_NUMERICHOST; /* Display address string instead of domain name */ 
25 for (p = listp; p; P = p->ai_next) { 

26 Getnameinfo(p->ai_addr, p->ai_addrlen, buf, MAXLINE, NULL, 0, flags); 
2 printf("%s\n", buf); 

28 } 

29 

30 /* Clean up */ 

31 Freeaddrinfo(listp); 

32 

33 exit(0); 

34 了 


code/netp/hostinfo.c 
图 11-17 HOSTINFO 展示 出 域名 到 和 它 相 关联 的 IP 地 址 之 间 的 映射 


660 第 三 部 分 程序 间 的 交互 和 通信 








首先 ， 初始 化 hints 结构 ， 使 getaddrinfo 返回 我 们 想 要 的 地 址 。 在 这 里 ， 我 们 想 
查找 32 位 的 IP 地 址 (第 16 行 )， 用 作 连 接 的 端点 (第 17 行 )。 因 为 只 想 getaddrinfo 转换 
域名 ， 所 以 用 service 参数 为 NULL 来 调用 它 。 

调用 getaddrinfo 之 后 ， 会 遍历 addrinfo 结构 ， 用 getnameinfo 将 每 个 套 接 字 地 
址 转换 成 点 分 十 进 制 地 址 字符 串 。 遍 历 完 列表 之 后 ， 我 们 调用 freeaddrinfo 小 心地 释放 
这 个 列表 (虽然 对 于 这 个 简单 的 程序 来 说 ， 并 不 是 严格 需要 这 样 做 的 ) 。 

运行 HOSTINFO 时 ， 我 们 看 到 twitter.com 映射 到 了 四 个 IP 地 址 ， 和 11.3.2 节 用 
NSLOOKUP 的 结果 一 样 。 

linux> ./hostinfo twitter.com 

199.16.156.102 

199.16.156.230 


199.16.156.6 
199.16.156.70 





练习 题 11.4 函数 getaddrinfo 和 getnameinfo 分 别 包 含 了 inet pton 和 inet ntop 
的 功能 ， 提 供 了 更 高 级 别 的 、 独 立 于 任何 特殊 地 址 格式 的 抽象 。 想 看 看 这 到 底 有 多 方 
便 ， 编 写 HOSTINFO( 图 11-17) 的 一 个 版 本 ， 用 inet pton 而 不 是 getnameinfo 将 每 个 
套 接 字 地 址 转换 成 点 分 十 进 制 地 址 字符 串 。 


11.4.8 套 接 字 接 口 的 辅助 函数 


初学 时 ，getnameinfo 函数 和 套 接 字 接 口 看 上 去 有 些 可 怕 。 用 高 级 的 辅助 函数 包装 
一 下 会 方便 很 多 ， 称 为 open clientfd 和 open listenfd， 客 户 端 和 服务 器 互相 通信 时 
可 以 使 用 这 些 函 数 。 

1. open_clientfd 函数 

客户 端 调用 open clientfd 建立 与 服务 器 的 连接 。 








#include "csapp.h" 


int open_clientfd(char *hostname, char *port); 
返回 : 若 成 功 则 为 描述 符 ， 若 出 错 则 为 一 1。 





open_clientfd 函数 建立 与 服务 器 的 连接 ， 该 服务 器 运行 在 主机 hostname 上 ， 并 在 
端口 号 port 上 监听 连接 请 求 。 它 返回 一 个 打开 的 套 接 字 描 述 符 ， 该 描述 符 准备 好 了 ， 可 
以 用 Unix 1/O 函数 做 输入 和 输出 。 图 11-18 给 出 了 open clientfd 的 代码 。 

我 们 调用 getaddrinfo， 它 返回 addrinfo 结构 的 列表 ， 每 个 结构 指向 一 个 套 接 字 地 
址 结构 ， 可 用 于 建立 与 服务 器 的 连接 ， 该 服务 器 运行 在 hostname 上 并 监听 port 端口 。 
然后 遍历 该 列表 ， 依 次 尝试 列表 中 的 每 个 条 目 ， 直 到 调用 socket 和 connect 成 功 。 如 果 
connect 失败 ， 在 尝试 下 一 个 条 目 之 前 ， 要 小 心地 关闭 套 接 字 描 述 符 。 如 果 connect 成 
功 ， 我们 会 释放 列表 内 存 ， 并 把 套 接 字 描 述 符 返回 给 客户 端 ， 客户 端 可 以 立即 开始 用 
Unix 1/O 与 服务 器 通信 了 。 

注意 ， 所 有 的 代码 都 与 任何 版 本 的 IP 无 关 。socket 和 connect 的 参数 都 是 用 
getaddrinfo 自动 产生 的 ， 这 使 得 我 们 的 代码 干净 可 移植 。 

2. open_listenfd 函数 

调用 open 1istenfd 函数 ， 服 务 器 创建 一 个 监听 描述 符 ， 准 备 好 接收 连接 请 求 。 
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#include "csapp.h" 


int open_listenfd(char *port); 
返回 : 若 成 功 则 为 描述 符 ， 若 出 错 则 为 一 1。 











code/src/csapp.c 
1 int open_clientfd(char *hostname, char *port) { 
y/ int clientfd; 
3 struct addrinfo hints, *listp, *p; 
4 
5 /* Get a list of potential server addresses */ 
6 memset (&hints, 0, sizeof(struct addrinfo)); 
4 hints.ai_socktype = SOCK_STREAM; /* Open a connection */ 
8 hints.ai_flags = AI_NUMERICSERV; /* ... using a numeric port arg. */ 
9 hints.ai_flags |= AI_ADDRCONFIG; /* Recommended for connections */ 
10 Getaddrinfo(hostname, port, &hints, &listp); 
计 
12 /* Walk the list for one that we can successfully connect to */ 
13 for (p = listp; p; P = p->ai_next) { 
14 /* Create a socket descriptor */ 
15 if ((clientfd = socket(p->ai_family, p->ai_socktype, p->ai_protocol)) 
16 < 0) continue; /* Socket failed, try the next */ 
pg 
18 /* Connect to the server */ 
19 if (connect(clientfd, p->ai_addr, p->ai_addrlen) != -1) 
20 break; /* Success */ 
| Close(clientfd); /* Connect failed, try another */ 
22 } 
23 
24 /* Clean up */ 
2 Freeaddrinfo(listp); 
26 if (!P) /* Ail connects failed */ 
27 return -1; 
28 else /* The last connect succeeded */ 
29 return clientfd; 
30 } 
code/src/csapp.c 


图 11-18 open clientfd: 和 服务 器 建立 连接 的 辅助 函数 。 它 是 可 重 人 和 与 协议 无 关 的 


open_ listenfd 函数 打开 和 返回 一 个 监听 描述 符 ， 这 个 描述 符 准 备 好 在 端口 port 上 
接收 连接 请 求 。 图 11-19 展示 了 open_listenfd 的 代码 。 

open listenfd 的 风格 类 似 于 open_clientfd。 调 用 getadqrinfo， 然 后 遍历 结果 列 
表 ， 直 到 调用 socket 和 bindq 成 功 。 注 意 ， 在 第 20 行 ， 我 们 使 用 setsockopt 函数 (本 书 中 
没有 讲述 ) 来 配置 服务 器 ， 使 得 服务 器 能 够 被 终止 、 重 启 和 立即 开始 接收 连接 请 求 。 一 个 重 
启 的 服务 器 默认 将 在 大 约 30 秒 内 拒绝 客户 端的 连接 请 求 ， 这 严重 地 阻碍 了 调试 。 

因为 我 们 调用 getaddrinfo 时 ,使 用 了 AI_PASSIVE 标志 并 将 host 参数 设置 为 
NULL， 每 个 套 接 字 地 址 结构 中 的 地 址 字段 会 被 设置 为 通配符 地 址 ， 这 告诉 内 核 这 个 服务 
器 会 接收 发 送 到 本 主机 所 有 IP 地 址 的 请 求 。 
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code/src/csapp.c 
1 int open_listenfd(char *port) 
式 
可 struct addrinfo hints, *listp, *p; 
4 int listenfd, optval=1; 
旷 
6 /* Get a list of potential server addresses */ 
memset (&hints，0，sizeof(struct addrinfo)) ; 
8 hints.ai_socktype = SOCK_STREAM ; /* Accept connections */ 
9 hints.ai_flags = AI_PASSIVE | AI_ADDRCONFIG; /* ... on any IP address */ 
10 hints.ai_flags |= AI_NUMERICSERV; /* ... using port number */ 
有 Getaddrinfo(NULL, port, &hints, &listp); 
12 
13 /* Walk the list for one that we can bind to */ 
14 for (p = listp; p; P = p->ai_next) { 
15 /* Create a socket descriptor */ 
16 if ((listenfd = socket(p->ai_family, p->ai_socktype, p->ai_protocol)) 
梳 < 0) continue; /* Socket failed, try the next */ 
18 
19 /* Eliminates "Address already in use" error from bind */ 
20 Setsockopt (listenfd, SOL_SOCKET, SO_REUSEADDR, 
21 (const void *)&optval , sizeof (int)); 
22 
23 /* Bind the descriptor to the address */ 
24 if (bind(listenfd, p->ai_addr, p->ai_addrlen) == 0) 
25 break; /* Success */ 
26 Close(listenfd); /* Bind failed, try the next */ 
27 } 
28 
29 /* Clean up */ 
30 Freeaddrinfo(listp); 
31 if (!P) /* No address worked */ 
32 return -1; 
33 
34 /* Make it a listening socket ready to accept connection requests */ 
35 if (listen(listenfd, LISTENQ) < 0) { 
36 Close(listenfd); 
37 return -1; 
38 } 
39 return listenfd; 
40 了 


code/src/csapp.c 
图 11-19 open listenfd: 打开 并 返回 监听 描述 符 的 辅助 阴 数 。 它 是 可 重信 和 与 协议 无 关 的 
最 后 ， 我 们 调用 1isten 函数 ， 将 Listenfd 转换 为 一 个 监听 描述 符 ， 并 返回 给 调用 
者 。 如 果 listen 失败 ， 我 们 要 小 心地 避免 内 存 泄漏 ， 在 返回 前 关闭 描述 符 。 
11. 4.9 echo 客户 端 和 服务 口 的 示例 
学 习 套 接 字 接口 的 最 好 方法 是 研究 示例 代码 。 图 11-20 展示 了 一 个 echo 客户 端的 代 
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码 。 在 和 服务 器 建立 连接 之 后 ， 客 户 端 进入 一 个 循环 ， 反复 从 标准 输入 读 取 文 本 行 ， 发 送 
文本 行 给 服务 器 ， 从 服务 器 读 取 回 送 的 行 ， 并 输出 结果 到 标准 输出 。 当 fgets 在 标准 输入 
上 遇 到 EOF 时 ， 或 者 因为 用 户 在 键盘 上 键入 Ctrl 十 D， 或 者 因为 在 一 个 重 定向 的 输入 文件 
中 用 尽 了 所 有 的 文本 行 时 ， 循 环 就 终止 。 


code/netp/echoclient.c 
1 #include "csapp.h" 
2 
3 int main(int argc, char **argv) 
4 { 
5 int clientfd; 
6 char *host, *port, buf [MAXLINE] ; 
Fr TiO. b To 
8 
9 if (argc != 3) { 
10 fprintf (stderr, "usage: %s <host> <port>\n", argv[0]); 
科 exit (0); 
说 小 
13 host = argv[1] ; 
14 port = argv[2] ; 
1 
16 clientfd = 0pen_clientfd(host，Pport) ; 
gl Rio_readinitb(&rio, clientfd); 
18 
19 while (Fgets(buf, MAXLINE, stdin) != NULL) { 
20 Rio_writen(clientfd, buf, strlen(buf)); 
pa! Rio_readlineb(&rio, buf, MAXLINE); 
22 Fputs(buf, stdout); 
23 } 
24 Close(clientfd); 
25 exit (0); 
26 } 
code/netp/echoclient.c 


图 11-20 ”echo 客户 端的 主 程序 


循环 终止 之 后 ， 客 户 端 关闭 描述 符 。 这 会 导致 发 送 一 个 EOF 通知 到 服务 器 ， 当 服务 
器 从 它 的 reo_readlineb 函数 收 到 一 个 为 零 的 返回 码 时 ， 就 会 检测 到 这 个 结果 。 在 关闭 
它 的 描述 符 后， 客户 端 就 终止 了 。 既 然 客户 端 内 核 在 一 个 进程 终止 时 会 自动 关闭 所 有 打开 
的 描述 符 ， 第 24 行 的 close 就 没有 必要 了 。 不 过 ， 显 式 地 关闭 已 经 打开 的 任何 描述 符 是 
一 个 良好 的 编程 习惯 。 

图 11-21 展示 了 echo 服务 器 的 主 程序 。 在 打开 监听 描述 符 后 ， 它 进入 一 个 无 限 循环 。 
每 次 循环 都 等 待 一 个 来 自 客 户 端的 连接 请 求 ， 输 出 已 连接 客户 端的 域名 和 IP 地 址 ， 并 调 
用 echo 函数 为 这 些 客 户 端 服务 。 在 echo 程序 返回 后 ， 主 程序 关闭 已 连接 描述 符 。 一 旦 客 
户 端 和 服务 器 关闭 了 它们 各 自 的 描述 符 ， 连 接 也 就 终止 了 。 

第 9 行 的 clientaddr 变量 是 一 个 套 接 字 地 址 结构 ， 被 传递 给 accept。 在 accept 返 
回 之 前 ， 会 在 clientadqr 中 填 上 连接 另 一 端 客户 端的 套 接 字 地 址 。 注 意 ， 我 们 将 cli- 
entaddr 声明 为 struct sockaddr storage 类 型 ， 而 不 是 struct sockaddr_in 类 型 。 
根据 定义 ，sockaddr_storage 结构 足够 大 能 够 装 下 任何 类 型 的 套 接 字 地 址 ， 以 保持 代码 
的 协议 无 关 性 。 


664 第 三 部 分 程序 间 的 交互 和 通信 








code/netp/echoserveri.c 


1 #include "csapp.h" 

2 

3 void echo(int connfd); 

4 

int main(int argc, char **argv) 

好。 二 

7 int listenfd, connfd; 

8 socklen_t clientlen; 

9 struct sockaddr_storage clientaddr; /* Enough space for any address */ 
10 char client_hostname [MAXLINE], client_port [MAXLINE] ; 

11 

补 if (argc != 2) { 

13 fprintf(stderr, "usage: %s <port>\n", argv[0]); 

14 exit (0); 

15 } 

16 

说 listenfd = Open_listenfd(argv[1]); 

18 while (1) { 

19 clientlen = sizeof (struct sockaddr_storage); 

20 connfd = Accept (listenfd, (SA *)&clientaddr, &clientlen); 

21 Getnameinfo((SA *) &clientaddr, clientlen, client_hostname, MAXLINE, 
22 client_port, MAXLINE, 0); 

23 printf ("Connected to (%s, %s)\n", client_hostname, client_port); 
24 echo(connfd); 

25 Close(connfd) ; 

26 

27 exit (0); 

和 让 


code/netp/echoserveri.c 
图 11-21 和 迭代 echo 服务 器 的 主 程序 


注意 ， 简 单 的 echo 服务 器 一 次 只 能 处 理 一 个 客户 端 。 这 种 类 型 的 服务 器 一 次 一 个 地 
在 客户 端 间 和 迭代 ， 称 为 迭代 服务 器 (iterative server) 。 在 第 12 章 中 ， 我 们 将 学 习 如 何 建 立 
更 加 复杂 的 并 发 服务 器 (concurrent server) ， 它 能 够 同时 处 理 多 个 客户 端 。 

最 后 ， 图 11-22 展示 了 echo 程序 的 代码 ， 该 程序 反复 读 写 文本 行 ， 直 到 rio_readlineb 
函数 在 第 10 行 遇 到 EOF。 


code/netp/echo.c 
1 #include "csapp.h" 
2 
3 void echo(int connfd) 
人 玉 
5 size_t n; 
6 char buf [MAXLINE] ; 
7 vio. V Tios 
8 
9 Rio_readinitb(&rio, connfd); 
10 while((n = Rio_readlineb(&rio, buf, MAXLINE)) != 0) { 
11 printf("server received %d bytes\n", (int)n); 
议 Rio_writen(connfd, buf, n); 
1 } 
14 } 


code/netp/echo.c 
图 11-22 读 和 回 送 文本 行 的 echo 函数 
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芒 要 在 连接 中 EOF 意味 什么 ? 

EOF 的 概念 常常 使 人 们 感到 迷惑 ， 尤 其 是 在 因特网 连接 的 上 下 文中 。 首 先 ， 我 们 
需要 理解 其 实 并 没有 像 EOF 字符 这 样 的 一 个 东西 。 进 一 步 来 说 ，EOF 是 由 内 核 检 测 到 
的 一 种 条 件 。 应 用 程序 在 它 接 收 到 一 个 由 read 函数 返回 的 零 返 回 码 时 ， 它 就 会 发 现 出 
EOF 条 件 。 对 于 磁盘 文件 ， 当 前 文件 位 置 超出 文件 长 度 时 ,会 发 生 EOF。 对 于 因特网 
连接 ， 当 一 个 进程 关闭 连接 它 的 那 一 端 时 ， 会 发 生 EOF。 连 接 另 一 端的 进程 在 试图 读 取 
流 中 最 后 一 个 字 节 之 后 的 字 节 时 ， 会 检测 到 下 OF 。 


11.5 Web 服务 器 

今 为 止 ， 我 们 已 经 在 一 个 简单 的 echo 服务 器 的 上 下 文中 讨论 了 网 络 编程 。 在 这 一 
节 里 ， et er tg phe pe 
Web 服务 器 。 


11.5.1 Web 基础 


Web 客户 端 和 服务 器 之 间 的 交互 用 的 是 一 个 基于 文本 的 应 用 级 协议 ， 叫 做 HTTP 
(Hypertext Transfer Protocol， 超 文本 传输 协议 ) 。HTTP 是 一 个 简单 的 协议 。 一 个 Web 
客户 端 ( 即 浏览 器 ) 打 开 一 个 到 服务 器 的 因特网 连接 ， 并 且 请 求 某 些 内 容 。 服 务 器 响应 所 请 
求 的 内 容 ， 然 后 关闭 连接 。 浏 览 器 读 取 这 些 内 容 ， 并 把 它 显示 在 屏幕 上 。 

Web 服务 和 常规 的 文件 检索 服务 (例如 FTP) 有 什么 区 别 呢 ?主要 的 区 别 是 Web 内 容 
可 以 用 一 种 叫做 HTML(Hypertext Markup Language， 超 文本 标记 语言 ) 的 语言 来 编写 。 
一 个 HTML 程序 (页 ) 包 含 指令 (标记 )， 它 们 告诉 浏览 器 如 何 显示 这 页 中 的 各 种 文本 和 图 
形 对 象 。 例 如 ， 代 码 

<b> Make me bold! </b> 
告诉 浏览 器 用 粗 体 字 类 型 输出 <b> 和 < /b> 标记 之 间 的 文本 。 然 而 ，HTML 真正 的 强大 
之 处 在 于 一 个 页 面 可 以 包含 指针 ( 超 链 接 ) ， 这 些 指针 可 以 指向 存放 在 任何 因特网 主机 上 的 
内 容 。 例 如 ， 一 个 格式 如 下 的 HIML 行 


<a href="http://www.cmu.edu/index.html">Carnegie Mellon</a> 


告诉 浏览 器 高 亮 显 示 文 本 对 象 “carnegie Mellon”， 并 且 创 建 一 个 超 链接 ， 它 指向 存放 
在 CMU Web 服务 器 上 叫做 index.html 的 HTML 文件 。 如 果 用 户 单 击 了 这 个 高 亮 文本 
对 象 ， 浏 览 器 就 会 从 CMU 服务 器 中 请 求 相 应 的 HTML 文件 并 显示 它 。 


| 旁 注 万 维 网 的 起 源 

万 维 网 是 Tim Berners-Lee 发 明 的 ， 他 是 一 位 在 瑞典 物理 实验 室 CERN( 欧 洲 粒 子 物理 研 
究 所 ) 工 作 的 软件 工程 师 。1989 年 ，Berners-Lee 写 了 一 个 内 部 备忘录 ， 提 出 了 一 个 分 布 式 超 文 
本 系统 ， 它 能 连接 “用 链接 组 成 的 笔记 的 网 (web of notes with links)”。 提 出 这 个 系统 的 目的 是 
帮助 CERN 的 科学 家 共享 和 管理 信息 。 在 接 下 来 的 两 年 多 里 ，Berners-Lee 实现 了 第 一 个 Web 服 
务 器 和 Web 浏览 器 之 后 ， 在 CERN 内 部 以 及 其 他 一 些 网 站 中 ，Web 发 展 出 了 小 规模 的 拥护 者 。 
1993 年 一 个 关键 事件 发 生 了 ，Marc Andreesen( 他 后 来 创建 了 Netscape) 和 他 在 NCSA 的 同事 发 布 
了 一 种 图 形 化 的 浏览 器 ， 叫 做 MOSAIC， 可 以 在 三 种 主要 的 平台 上 所 使 用 : Unix、Windows 和 
Macintosh。 在 MOSAIC 发 布 后 ， 对 Web 的 兴趣 爆发 了 ，Web 网 站 以 每 年 10 倍 或 更 高 的 数量 增 
长 。 到 2015 年 ， 世 界 上 已 经 有 超过 975 000 000 个 Web 网 站 了 ( 源 自 Netcraft Web Survey) 。 
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11.5.2 Web 内 容 

对 于 Web 客户 端 和 服务 器 而 言 ， 内 容 是 与 一 个 MIME (Multipurpose Internet Mail 
Extensions， 多 用 途 的 网 际 邮件 扩充 协议 ) 类 型 相关 的 字 节 序列 。 图 11-23 展示 了 一 些 常用 
的 MIME 类 型 。 











MIME 类 型 描述 | 
text/html HTML 页 面 
text/plain 无 格式 文本 
application/postscript Postscript 文档 








image/gif GIF 格式 编码 的 二 进 制图 像 
image/png PNG 格式 编码 的 二 进 制图 像 
image/jpeg JPEG 格式 编码 的 二 进 制图 像 





图 11-23 MIME 类 型 示例 


Web 服务 器 以 两 种 不 同 的 方式 向 客户 端 提供 内 容 : 

e 取 一 个 磁盘 文件 ， 并 将 它 的 内 容 返回 给 客户 端 。 磁 盘 文件 称 为 静态 内 容 (static con- 
tent) ， 而 返回 文件 给 客户 端的 过 程 称 为 服务 静态 内 容 (serving static content) 。 

e@ 运行 一 个 可 执行 文件 ， 并 将 它 的 输出 返回 给 客户 端 。 运 行 时 可 执行 文件 产生 的 输出 
称 为 动态 内 容 (dynamic content) ， 而 运行 程序 并 返回 它 的 输出 到 客户 端的 过 程 称 为 
服务 动态 内 容 (serving dynamic content ) 。 

每 条 由 Web 服务 器 返回 的 内 容 都 是 和 它 管理 的 某 个 文件 相关 联 的 。 这 些 文件 中 的 每 一 个 都 

有 一 个 唯一 的 名 字 ， 叫 做 URL(Universal Resource Locator， 通 用 资源 定位 符 )。 例 如 ，URL 
http://www.google.com:80/index.html 


表示 因特网 主机 www.google.com 上 一 个 称 为 /index.html 的 HTML 文件 ， 它 是 由 一 个 
监听 端口 80 的 Web 服务 器 管理 的 。 端 口号 是 可 选 的 ， 默 认为 知名 的 HTTP 端口 80。 可 
执行 文件 的 URL 可 以 在 文件 名 后 包括 程序 参数 。“?” 字 符 分 隔 文件 名 和 参数 ， 而 且 每 个 
参数 都 用 “g&” 字 符 分隔 开 。 例 如 ，URL 


http://bluefish.ics.cs.cmu.edu:8000/cgi-bin/adder?15000&213 


标识 了 一 个 叫做 /cgi- bin/adger 的 可 执行 文件 ， 会 带 两 个 参数 字符 串 15000 和 213 来 调用 
它 。 在 事务 过 程 中 ， 客 户 端 和 服务 器 使 用 的 是 URL 的 不 同 部 分 。 例 如 ， 客 户 端 使 用 前 绥 


http://www.google.com:80 


来 决定 与 哪 类 服务 器 联系 ， 服 务 器 在 哪里 ， 以 及 它 监 听 的 端口 号 是 多 少 。 服 务 器 使 用 后 缀 
/index.html 
来 发 现在 它 文件 系统 中 的 文件 ， 并 确定 请 求 的 是 静态 内 容 还 是 动态 内 容 。 
关于 服务 器 如 何 解释 一 个 URL 的 后 级 ， 有 几 点 需要 理解 : 
e 确定 一 个 URL 指向 的 是 静态 内 容 还 是 动态 内 容 没 有 标准 的 规则 。 每 个 服务 器 对 它 
所 管理 的 文件 都 有 自己 的 规则 。 一 种 经 典 的 (老式 的 ) 方 法 是 ， 确 定 一 组 目录 ， 例 如 
cgi-bin， 所 有 的 可 执行 性 文件 都 必须 存放 这 些 目录 中 。 
e 后 级 中 的 最 开始 的 那个 “/” 不 表示 Linux 的 根 目 录 。 相 反 ， 它 表示 的 是 被 请 求 内 容 
类 型 的 主 目录 。 例 如 ， 可 以 将 一 个 服务 器 配置 成 这 样 : 所 有 的 静态 内 容 存 放 在 目录 / 
usr/httpd/html 下 ， 而 所 有 的 动态 内 容 都 存放 在 目录 /usr/httpd/cgi-bin 下 。 
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e 最 小 的 URL 后 级 是 “/” 字 符 ， 所 有 服务 器 将 其 扩展 为 某 个 默认 的 主页 例如 /index. 
html。 这 解释 了 为 什么 简单 地 在 浏览 器 中 键入 一 个 域名 就 可 以 取出 一 个 网 站 的 主 
页 。 浏 览 器 在 URL 后 添加 缺失 的 “/”， 并 将 之 传递 给 服务 器 ， 服 务 器 又 把 “/” 扩 
展 到 某 个 默认 的 文件 名 。 


11. 5.3 HTTP 事务 


因为 HTTP 是 基于 在 因特网 连接 上 传送 的 文本 行 的 ， 我们 可 以 使 用 Linux 的 TEL- 
NET 程序 来 和 因特网 上 的 任何 Web 服务 器 执行 事务 。 对 于 调试 在 连接 上 通过 文本 行 来 与 
客户 端 对 话 的 服务 器 来 说 ，TELNET 程序 是 非常 便利 的 。 例 如 ， 图 11-24 使 用 TELNET 
向 AOL Web 服务 器 请 求 主页 。 











1 linux> telnet www.aol.com 80 Client: open connection to server 

2 Trying 205.188.146,.23;s;; Telnet prints 3 lines to the terminal 

3 Connected to aol.conm. 

4 Escape character is '~]'. 

5 GET / HITP/1.1 Client: request line 

6 Host: www.aol.com Client: required HTTP/1.1 header 

及 Client: empty line terminates headers 

8 HTTP/1.0 200 OK Server: response line 

9 “MIME-Version: 1.0 Server: followed by five response headers 


10 Date: Mon, 8 Jan 2010 4:59:42 GMT 
11 Server: Apache-Coyote/1.1 





12 Content-Type: text/html Server: expect HTML in the response body 

13 Content-Length: 42092 Server: expect 42,092 bytes in the response body 
14 Server: empty line terminates response headers 
15 <html> Server: first HIML line in response body 

16 “i Server: 766 lines of HIML not shown 

17 </html> Server: last HIML line in response body 





18.: Connection closed by foreign host. Server: closes connection 


19 linux> Client: closes connection and terminates 





图 11-24 一 个 服务 静态 内 容 的 HTTP 事务 


在 第 1 行 ， 我 们 从 Linux shell 运行 TELNET， 要 求 它 打开 一 个 到 AOL Web 服务 器 的 连 
接 。TELNET 向 终端 打印 三 行 输出 ， 打 开 连 接 ， 然 后 等 待 我 们 输入 文本 (第 5 行 )。 每 次 输入 
一 个 文本 行 ， 并 键入 回 车 键 ，TELNET 会 读 取 该 行 ， 在 后 面 加 上 回 车 和 换行 符号 (在 C 的 表 
示 中 为 “\r\n”)， 并 且 将 这 一 行 发 送 到 服务 器 。 这 是 和 HTTP 标准 相符 的 ，HTTP 标准 要 
求 每 个 文本 行 都 由 一 对 回 车 和 换行 符 来 结束 。 为 了 发 起 事务 ， 我 们 输入 一 个 HTTP 请 求 ( 第 
5 一 7 行 )。 服 务 器 返回 HTTP 响应 (第 8 一 17 行 )， 然 后 关闭 连接 (第 18 行 )。 

1. HTTP 请 求 

一 个 HTTP 请 求 的 组 成 是 这 样 的 : 一 个 请 求 行 (request line) (第 5 行 )， 后 面 跟 随 零 
个 或 更 多 个 请 求 报头 (request header) (第 6 行 )， 再 跟随 一 个 空 的 文本 行 来 终止 报头 列表 
(第 7 行 ) 。 一 个 请 求 行 的 形式 是 

method URT version 
HTTP 支持 许多 不 同 的 方法 ， 包括 GET、POST、OPTIONS、HEAD、 PUT、DELETE 
和 TRACE。 我 们 将 只 讨论 广 为 应 用 的 GET 方法 ， 大 多 数 HTTP 请 求 都 是 这 种 类 型 的 。 
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GET 方法 指导 服务 器 生成 和 返回 URICUniform Resource Identifier， 统 一 资源 标识 符 ) 标 
识 的 内 容 。URI 是 相应 的 URL 的 后 级， 包括 文件 名 和 可 选 的 参数 。2 

请 求 行 中 的 version 字段 表明 了 该 请 求 遵 循 的 HTTP 版 本 。 最 新 的 HTTP 版 本 是 
HTTP/1.1 [37]。HTTP/1.0 是 从 1996 年 沿用 至 今 的 老 版 本 L6]。HTTP/1.1 定义 了 一 
些 附加 的 报头 ， 为 诸如 缓冲 和 安全 等 高 级 特性 提供 支持 ， 它 还 支持 一 种 机 制 ， 允 许 客户 端 
和 服务 器 在 同一 条 持久 连接 (persistent connection) 上 执行 多 个 事务 。 在 实际 中 ， 两 个 版 本 
是 互相 兼容 的 ， 因 为 HTTP/1. 0 的 客户 端 和 服务 器 会 简单 地 忽略 HTTP/1. 1 的 报头 。 

总 的 来 说 ， 第 5 行 的 请 求 行 要 求 服务 器 取出 并 返回 HTML 文件 /index.html。 它 也 
告知 服务 器 请 求 剩 下 的 部 分 是 HTTP/1. 1 格式 的 。 

请 求 报头 为 服务 器 提供 了 额外 的 信息 ， 例 如 浏览 器 的 商标 名 ， 或 者 浏览 器 理解 的 
MIME 类 型 。 请 求 报头 的 格式 为 

header-name: header-data 
针对 我 们 的 目的 ， 唯 一 需要 关注 的 报头 是 Host 报头 (第 6 行 )， 这 个 报头 在 HTTP/1.1 请 
求 中 是 需要 的 ， 而 在 HTTP/1. 0 请 求 中 是 不 需要 的 。 代 理 缓存 (proxy cache) 会 使 用 Host 
报头 ， 这 个 代理 缓存 有 时 作为 浏览 器 和 管理 被 请 求 文件 的 原始 服务 器 (origin server) 的 中 
介 。 客 户 端 和 原始 服务 器 之 间 ， 可 以 有 多 个 代理 ， 即 所 谓 的 代理 链 (proxy chain)。Host 
报头 中 的 数据 指示 了 原始 服务 器 的 域名 ， 使 得 代理 链 中 的 代理 能 够 判断 它 是 否 可 以 在 本 地 
缓存 中 拥有 一 个 被 请 求 内 容 的 副本 。 

继续 图 11-24 中 的 示例 ， 第 7 行 的 空 文本 行 ( 通 过 在 键盘 上 键入 回 车 键 生成 的 ) 终 止 了 
报头 ， 并 指示 服务 器 发 送 被 请 求 的 HTML 文件 。 

2. HTTP 响应 

HTTP 响应 和 HTTP 请 求 是 相似 的 。 一 个 HTTP 响应 的 组 成 是 这 样 的 : 一 个 响应 行 
(response line) (第 8 行 )， 后 面 跟随 着 零 个 或 更 多 的 响应 报头 (response header) (第 9 一 13 
行 )， 再 跟随 一 个 终止 报头 的 空 行 ( 第 14 行 )， 再 跟随 一 个 响应 主体 (response body) (第 15 一 17 
行 ) 。 一 个 响应 行 的 格式 是 

Versio7z status-code status-message 
version 字段 描述 的 是 响应 所 遵循 的 HTTP 版 本 。 状 态 码 (status-code) 是 一 个 3 位 的 正 整 数 ， 
指明 对 请 求 的 处 理 。 状 态 消息 (status message) 给 出 与 错误 代码 等 价 的 英文 描述 。 图 11-25 列 
出 了 一 些 常见 的 状态 码 ， 以 及 它们 相应 的 消息 。 















| ”状态 代码 状态 消息 描述 
200 成 功 处 理 请 求 无 误 
301 永久 移动 内 容 已 移动 到 location 头 中 指明 的 主机 上 
400 错误 请 求 服务 器 不 能 理解 请 求 
403 禁止 服务 器 无 权 访问 所 请 求 的 文件 
未 发 现 服务 器 不 能 找到 所 请 求 的 文件 
未 实现 服务 器 不 支持 请 求 的 方法 











HTTP 版 本 不 支持 服务 器 不 支持 请 求 的 版 本 


图 11-25 ”一 些 HTTP 状态 码 





加 实际 上 ， 只 有 当 浏 览 器 请 求 内 容 时 ， 这 才 是 真 的 。 如 果 代理 服务 器 请 求 内 容 ， 那 么 这 个 URI 必须 是 完整 的 
URL; 
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第 9 一 13 行 的 响应 报头 提供 了 关于 响应 的 附加 信息 。 针 对 我 们 的 目的 ， 两 个 最 重要 的 
报头 是 Content- Type( 第 12 行 )， 它 告诉 客户 端 响应 主体 中 内 容 的 MIME 类 型 ; 以 及 
Content-Length( 第 13 行 )， 用 来 指示 响应 主体 的 字 节 大 小 。 

第 14 行 的 终止 响应 报头 的 空 文本 行 ， 其 后 跟随 着 响应 主体 ， 响 应 主体 中 包含 着 被 请 
求 的 内 容 。 


11.5.4 服务 动态 内 容 


如 果 我 们 停 下 来 考虑 一 下 ， 一 个 服务 器 是 如 何 向 客户 端 提供 动态 内 容 的 ， 就 会 发 现 一 
些 问题 。 例 如 ， 客 户 端 如 何 将 程序 参数 传递 给 服务 器 ? 服务 器 如 何 将 这 些 参数 传递 给 它 所 
创建 的 子 进 程 ? 服务 器 如 何 将 子 进程 生成 内 容 所 需要 的 其 他 信息 传递 给 子 进 程 ? 子 进 程 将 
它 的 输出 发 送 到 哪里 ? 一 个 称 为 CGICCommon Gateway Interface， 通 用 网 关 接 口 ) 的 实际 
标准 的 出 现 解 决 了 这 些 问题 。 

1. 客户 端 如 何 将 程序 参数 传递 给 服务 器 

GET 请 求 的 参数 在 URI 中 传递 。 正 如 我 们 看 到 的 ， 一 个 “? 字符 分 隔 了 文件 名 和 参 
数 ， 而 每 个 参数 都 用 一 个 “&” 字 符 分 隔 开 。 ch 下旬 许 有 冯 模 ， 而 必须 用 字符 串 “%20” 
来 表示 。 对 其 他 特殊 字符 ， 也 存在 着 相似 的 编码 。 


蕊 要 在 HTTP POST 请 求 中 传递 参数 


HTTP POST 请 求 的 参数 是 在 请 求 主体 中 而 不 是 URI 中 传递 的 。 


2. 服务 器 如 何 将 参数 传递 给 子 进程 
在 服务 器 接收 一 个 如 下 的 请 求 后 
GET /cgi-bin/adder?15000&213 HTTP/1.1 


它 调 用 fork 来 创建 一 个 子 进 程 ， 并 调用 execve 在 子 进程 的 上 下 文中 执行 /cgi-bin/ad- 
der 程序 。 像 adder 这 样 的 程序 ， 常 常 被 称 为 CGI 程序 ， 因 为 它们 遵守 CGI 标准 的 规则 。 
而 且 ， 因 为 许多 CGI 程序 是 用 Perl 脚本 编写 的 ， 所 以 CGI 程序 也 常 被 称 为 CGI 脚本 。 在 
调用 execve 之 前 ， 子 进程 将 CGI 环境 变量 QUERY_STRING 设置 为 “15000&213”，ad- 
der 程序 在 运行 时 可 以 用 Linux getenv 函数 来 引用 它 。 

3. 服务 器 如 何 将 其 他 信息 传递 给 子 进程 

CGI 定义 了 大 量 的 其 他 环境 变量 ， 一 个 CGI 程序 在 它 运行 时 可 以 设置 这 些 环境 变量 。 
图 11-26 给 出 了 其 中 的 一 部 分 。 











环境 变量 描述 
QUERY _STRING 程序 参数 
SERVER_PORT 父 进 程 侦 听 的 端口 
REQUEST_METHOD GET 或 POST 
REMOTE_HOST 客户 端的 域名 
REMOTE_ADDR 客户 端的 点 分 十 进 制 IP 地 址 
CONTENT_TYPE 只 对 POST 而 言 : 请 求 体 的 MIME 类 型 
CONTENT_ LENGTH 只 对 POST 而 言 : 请 求 体 的 字 节 大 小 





图 11-26 ”CGI 环境 变量 示例 


4. 子 进程 将 它 的 输出 发 送 到 哪里 
一 个 CGI 程序 将 它 的 动态 内 容 发 送 到 标准 输出 。 在 子 进程 加 载 并 运行 CGI 程序 之 前 ， 
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它 使 用 Linux dup2 函数 将 标准 输出 重 定 向 到 和 客户 端 相 关联 的 已 连接 描述 符 。 因 此 ， 任 
何 CGI 程序 写 到 标准 输出 的 东西 都 会 直接 到 达 客 户 端 。 

注意 ， 因 为 父 进程 不 知道 子 进程 生成 的 内 容 的 类 型 或 大 小 ， 所 以 子 进程 就 要 负责 生成 
Content-type 和 Content- length 响应 报头 ， 以 及 终止 报头 的 空 行 。 

图 11-27 展示 了 一 个 简单 的 CGI 程序 ， 它 对 两 个 参数 求 和 ， 并 返回 带 结 果 的 HTML 
文件 给 客户 端 。 图 11-28 展示 了 一 个 HTTP 事务 ， 它 根据 adder 程序 提供 动态 内 容 。 


code/netp/tiny/cgi-bin/adder.c 


ss 


#include "csapp.h" 


2 

3 int main(void) { 

4 char *buf, *p; 

5 char argl[MAXLINE] ，arg2[MAXLINE] ，content [MAXLINE] ; 

6 int ni1=0, n2=0; 

x 

8 /* Extract the two arguments */ 

9 if ((buf = getenv("QUERY_STRING")) != NULL) { 

10 p= strchr(buf, '&'); 

11 *p = '\0'; 
12 strcpy(arg1, buf); 
13 strcpy(arg2, p+1); 

14 nl = atoi(arg!1); 
15 n2 = atoi(arg2); 

16 } 
17 
18 /* Make the response body */ 

19 sprintf (content, "QUERY_STRING=%s", buf); 
20 sprintf (content, "Welcome to add.com: "); 
21 sprintf (content, "%sTHE Internet addition portal.\r\n<p>", content); 
22 sprintf (content, "%sThe answer is: %d + %d = %d\r\n<p>", 
23 content, ni, n2, ni + n2); 
24 sprintf (content, "%sThanks for visiting!\r\n", content); 
25 

26 /* Generate the HTTP response */ 

py printf("Connection: close\r\n'"); 

28 printf("Content-length: %d\r\n", (int)strlen(content)); 
29 printf ("Content-type: text/html\r\n\r\n'"); 

30 printf("%s", content); 

31 fflush(stdout); 

32 

33 exit(0); 

统 二 


code/netp/tiny/cgi-bin/adder.c 
图 11-27 对 两 个 整数 求 和 的 CGI 程序 
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linux> telnet kittyhawk.cmcl.cs.cmu.edu 8000 Client: open connection 
Trying 128.2.194.242... 
Connected to kittyhawk.cmcl.cs.cmu.edu. 
Escape character is '*]'. 
GET /cgi-bin/adder?15000&213 HTTP/1.0 Client: request line 
Client: empty line terminates headers 
HTTP/1.0 200 OK Server: response line 
Server: Tiny Web Server Server: identify server 
Content-length: 115 Adder: expect 115 bytes in response body 
Content-type: text/html Adder: expect HIML in response body 
Adder: empty line terminates headers 
Welcome to add.com: THE Internet addition portal. Adder: first HTML line 
<p>The answer is: 15000 + 213 = 15213 hdder: second HTML 1ine in response body 
<p>Thanks for visiting! Adder: third HTIML line im response body 
Connection closed by foreign host. Server: closes connection 


1 
2 
1 
4 
3 
6 
a 
8 


linux> Client: closes connection and terminates 





图 11-28 一 个 提供 动态 HTML 内 容 的 HTTP 事务 


| 旁 注 | 将 HTTP POST 请 求 中 的 参数 传递 给 CGI 程序 
对 于 POST 请 求 ， 子 进程 也 需要 重 定向 标准 输入 到 已 连接 描述 符 。 然 后 ，CGI 程序 
会 从 标准 输入 中 读 取 请 求 主 体 中 的 参数 。 


认 S 练 习题 11.5 在 10.11 节 中 ， 我 们 警告 过 你 关于 在 网 络 应 用 中 使 用 C 标准 1/O 函数 的 
危险 。 然 而 ， 图 11-27 中 的 CGI 程序 却 能 没有 任何 问题 地 使 用 标准 I/O。 为 什么 呢 ? 


11.6 综合 : TINY Web 服务 器 


我 们 通过 开发 一 个 虽 小 但 功能 齐全 的 称 为 TINY 的 Web 服务 器 来 结束 对 网 络 编程 的 
讨论 。TINY 是 一 个 有 趣 的 程序 。 在 短 短 250 行 代 码 中 ， 它 结合 了 许多 我 们 已 经 学 习 到 的 
思想 ， 例 如 进程 控制 、Unix IJO、 套 接 字 接口 和 HTTP。 虽然 它 缺 乏 一 个 实际 服务 器 所 具 
备 的 功能 性 、 健 壮 性 和 安全 性 ， 但 是 它 足 够 用 来 为 实际 的 Web 浏览 器 提供 静态 和 动态 的 
内 容 。 我 们 鼓励 你 研究 它 ， 并 且 自 己 实 现 它 。 将 一 个 实际 的 浏览 器 指向 你 自己 的 服务 器 ， 
看 着 它 显 示 一 个 复杂 的 带 有 文本 和 图 片 的 Web 页 面 ， 真 是 非常 令 人 兴奋 (甚至 对 我 们 这 些 
作者 来 说 ， 也 是 如 此 !1) 。 

1.TINY 的 main 程序 

图 11-29 展示 了 TINY 的 主 程序 。TINY 是 一 个 迭代 服务 器 ， 监 听 在 命令 行 中 传递 来 
的 端口 上 的 连接 请 求 。 在 通过 调用 open listenfd 函数 打开 一 个 监听 套 接 字 以 后 ，TINY 
执行 典型 的 无 限 服务 器 循环 ， 不 断 地 接受 连接 请 求 ( 第 32 行 )， 执 行事 务 ( 第 36 行 )， 并 关 
闭 连 接 的 它 那 一 端 ( 第 37 行 )。 

2. doit 函数 

图 11-30 中 的 doit 函数 处 理 一 个 HTTP 事务 。 首 先 ， 我 们 读 和 解析 请 求 行 ( 第 11 一 
14 行 )。 注 意 ， 我们 使 用 图 11-8 中 的 rio_readlineb 函数 读 取 请 求 行 。 

TINY 只 支持 GET 方法 。 如 果 客 户 端 请 求 其 他 方法 (比如 POST)， 我 们 发 送 给 它 一 
个 错误 信息 ， 并 返回 到 主 程序 (第 15 一 19 行 )， 主 程序 随后 关闭 连接 并 等 待 下 一 个 连接 请 
求 。 否 则 ， 我 们 读 并 且 ( 像 我 们 将 要 看 到 的 那样 ) 忽 略 任何 请 求 报头 (第 20 行 )。 
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code/netp/tiny/tiny.c 
t /* 
2 * tiny.c - A simple, iterative HTTP/1.0 Web server that uses the 
3 水 GET method to serve static and dynamic content 
4 */ 
5 #include "csapp.h" 
6 
7 void doit(int fd) ; 
8 void read requesthdrs(rio_t *rp); 
9 int parse_uri(char *uri, char *filename, char *cgiargs); 
10 void serve_static(int fd, char *filename, int filesize); 
向 void get_filetype(char *filename, char *filetype); 
12 void serve_dynamic(int fd, char *filename, char *cgiargs); 
13 void clienterror(int fd, char *cause, char *errnum, 
14 char *shortmsg, char *longmsg); 
4 
16 int main(int argc, char **argv) 
17 { 
18 int listenfd, connfd; 
19 char hostname [MAXLINE], port [MAXLINE] ; 
20 socklen_t clientlen; 
21 struct sockaddr_storage clientaddr; 
2 
23 /* Check command-line args */ 
24 if (argc != 2) { 
区 fprintf(stderr, "usage: %s <port>\n", argv[0]); 
26 exit (1); 
27 } 
28 
29 listenfd = Open_listenfd(argv[1]); 
30 while (1) { 
31 clientlen = sizeof(clientaddr); 
32 connfd = Accept(listenfd, (SA *)&clientaddr, &clientlen); 
33 Getnameinfo((SA *) &clientaddr, clientlen, hostname, MAXLINE, 
34 port, MAXLINE, 0); 
35 printf("Accepted connection from (%s, %s)\n", hostname, port); 
36 doit(connfd); 
37 Close(connfd); 
38 } 
39 } 
code/netp/tiny/tiny.c 


图 11-29 TINY Web 服务 器 


然后 ， 我 们 将 URI 解析 为 一 个 文件 名 和 一 个 可 能 为 空 的 CGI 参数 字符 串 ， 并 且 设 置 
一 个 标志 ， 表 明 请 求 的 是 静态 内 容 还 是 动态 内 容 ( 第 23 行 )。 如 果 文 件 在 磁盘 上 不 存在 ， 
我 们 立即 发 送 一 个 错误 信息 给 客户 端 并 返回 。 

最 后 ， 如 果 请 求 的 是 静态 内 容 ， 我 们 就 验证 该 文件 是 一 个 普通 文件 ， 而 我 们 是 有 读 权 
限 的 (第 31 行 )。 如 果 是 这 样 ， 我 们 就 向 客户 端 提供 静态 内 容 ( 第 36 行 )。 相 似 地 ， 如 果 请 
求 的 是 动态 内 容 ， 我 们 就 验证 该 文件 是 可 执行 文件 (第 39 行 )， 如 果 是 这 样 ， 我 们 就 继续 ， 
并 且 提 供 动态 内 容 ( 第 44 行 )。 
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code/netp/tiny/tiny.c 
1 void doit(int fd) 
-| 
条 int is. static; 
4 struct stat sbuf; 
5 char buf [MAXLINE], method [MAXLINE], uri[MAXLINE], version{[MAXLINE]; 
6 char filename [MAXLINE], cgiargs [MAXLINE] ; 
7 Eid Ti 
8 
9 /* Read request line and headers */ 
10 Rio_readinitb(&rio, fd); 
料 Rio_readlineb(&rio, buf, MAXLINE); 
12 printf("Request headers:\n'); 
13 printf("%s", buf); 
14 sscanf (buf, "%s %s %s", method, uri, version); 
说 if (strcasecmp(method, "GET")) { 
16 clienterror(fd, method, "501", "Not implemented", 
远 "Tiny does not implement this method"); 
18 return; 
19 中 
20 read_requesthdrs(&rio) ; 
2 
22 /* Parse URI from GET request */ 
23 is_static = parse_uri(uri, filename, cgiargs); 
24 if (stat(filename, &sbuf) < 0) { 
25 clienterror(fd, filename, "404", "Not found'" ， 
26 "Tiny couldn't find this file"); 
27 return; 
28 ' 
29 
30 if (is_static) { /* Serve static content */ 
31 if (!(S_ISREG(sbuf.st_mode)) || !(S_IRUSR & sbuf.st_mode)) { 
32 clienterror(fd, filename, "403", "Forbidden", 
33" "Tiny couldn't read the file"); 
34 return; 
35 上 
36 serve_static(fd, filename, sbuf.st_size); 
37 上 
38 else { /* Serve dynamic content */ 
39 if (!(S_ISREG(sbuf.st_mode)) || !(S_IXUSR & sbuf.st_mode)) { 
40 clienterror(fd, filename, "403", "Forbidden", 
41 "Tiny couldn't run the CGI Program'") ; 
42 return; 
43 
44 serve_dynamic(fd, filename, cgiargs); 
45 } 
46 
code/netp/tiny/tiny.c 


图 11-30 ”TINY doit 处 理 一 个 HTTP 事务 


3. clienterror 函数 

TINY 缺乏 一 个 实际 服务 器 的 许多 错误 处 理 特 性 。 然 而 ， 它 会 检查 一 些 明显 的 错误 ， 
并 把 它们 报告 给 客户 端 。 图 11-31 中 的 clienterror 函数 发 送 一 个 HTTP 响应 到 客户 端 ， 
在 响应 行 中 包含 相应 的 状态 码 和 状态 消息 ， 响 应 主体 中 包含 一 个 HTML 文件 ， 向 浏览 器 
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的 用 户 解 释 这 个 错误 。 
code/netp/tiny/tiny.c 
1 void clienterror(int fd, char *cause, char *errnum, 
2 char *shortmsg, char *longmsg) 
时 
4 char buf [MAXLINE], body [MAXBUF] ; 
5 
6 /* Build the HTTP response body */ 
7 sprintf (body, "<html><title>Tiny Error</title>"); 
8 sprintf (body, "%s<body bgcolor=""ffffff"">\r\n", body); 
9 sprintf(body, "%s%s: %s\r\n", body, errnum, shortmsg); 
10 sprintf (body, "%s<p>%s: %s\r\n", body, longmsg, cause); 
着 sprintf (body, "%s<hr><em>The Tiny Web server</em>\r\n", body); 
4 
13 /* Print the HTTP response */ 
14 sprintf (buf , "HTTP/1.0 %s %s\r\n", errnum, shortmsg); 
15 Rio_writen(fd, buf, strlen(buf)); 
16 sprintf (buf, "Content-type: text/html\r\n'"); 
1x Rio_writen(fd, buf, strlen(buf)); 
18 sprintf (buf, "Content-length: %d\r\n\r\n", (int)strlen(body)); 
19 Rio_writen(fd, buf, strlen(buf)); 
20 Rio_writen(fd, body, strlen(body)); 
21 } 
code/netp/tiny/tiny.c 


图 11-31 TINY clienterror 向 客户 端 发 送 一 个 出 错 消 息 


回想 一 下 ，HTML 响应 应 该 指明 主体 中 内 容 的 大 小 和 类 型 。 因 此 ， 我 们 选择 创建 
HTML 内 容 为 一 个 字符 串 ， 这 样 一 来 我 们 可 以 简单 地 确定 它 的 大 小 。 还 有 ， 请 注意 我 们 
为 所 有 的 输出 使 用 的 都 是 图 10-4 中 健壮 的 rio_writen 函数 。 

4. read_requesthdrs 函数 

TINY 不 使 用 请 求 报头 中 的 任何 信息 。 它 仅仅 调用 图 11-32 中 的 read requesthdrs 
函数 来 读 取 并 忽略 这 些 报头 。 注 意 ， 终 止 请 求 报头 的 空 文本 行 是 由 回 车 和 换行 符 对 组 成 
的 ， 我 们 在 第 6 行 中 检查 它 。 


code/netp/tiny/tiny.c 
1 void read_requesthdrs(rio_t *rp) 
区 区 
3 char buf [MAXLINE] ; 
4 
5 Rio_readlineb(rp，buf ，MAXLINE) ; 
6 while(strcmp(buf, "\r\n")) { 
浮 Rio_readlineb(rp, buf, MAXLINE); 
8 printf("%s", buf); 
9 } 
10 return; 
11 } 
code/netp/tiny/tiny.c 


图 11-32 TINY read requesthdrs 读 取 并 忽略 请 求 报头 
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5. parse_uri 函数 
TINY 假设 静态 内 容 的 主 目录 就 是 它 的 当前 目录 ， 而 可 执行 文件 的 主 目录 是 ./cgi-pin。 
任何 包含 字符 串 cgi-bin 的 URI 都 会 被 认为 表示 的 是 对 动态 内 容 的 请 求 。 默 认 的 文件 名 是 
./home .html。 
图 11-33 中 的 parse_uri 函数 实现 了 这 些 策略 。 它 将 URI 解析 为 一 个 文件 名 和 一 个 
可 选 的 CGI 参数 字符 串 。 如 果 请 求 的 是 静态 内 容 ( 第 5 行 )， 我 们 将 清除 CGI 参数 字符 串 
(第 6 行 )， 然 后 将 URI 转换 为 一 个 Linux 相对 路 径 名 ， 例 如 ./index.html( 第 7 一 8 行 )。 
如 果 URI 是 用 “/” 结 尾 的 (第 9 行 )， 我 们 将 把 默认 的 文件 名 加 在 后 面 (第 10 行 )。 另 一 方 
面 ， 如 果 请 求 的 是 动态 内 容 ( 第 13 行 )， 我 们 就 会 抽取 出 所 有 的 CGI 参数 (第 14 一 20 行 )， 
并 将 URI 剩 下 的 部 分 转换 为 一 个 Linux 相对 文件 名 (第 21 一 22 行 )。 
一 codeAelpHijiyinyc 


int parse_uri(char *uri, char *filename, char *cgiargs) 


1 
> 

3 char *ptr; 

4 

5 if (!strstr(uri, "cgi-bin")) { /* Static content */ 
6 strcpy(cgiargs, ""); 

7 strcpy (filename, "."); 

8 strcat (filename, uri); 

9 if (uri[strlen(uri)-1] == '/') 

10 strcat (filename, "home.html'); 
条 return 1; 

全 } 

13 else { /* Dynamic content */ 

14 ptr = index(uri, '?'); 

15 if (ptr) { 

16 strcpy (cgiargs, ptr+1); 

17 *ptr = '\0'; 

18 站 

19 else 

20 strcpy (cgiargs, ""); 

21 strcpy(filename, "."); 

22 strcat (filename, uri); 

23 return 0; 

24 } 

zs 


code/netp/tiny/tiny.c 
图 11-33 ” TINY parse_uri 解析 一 个 HTTP URI 


6. serve_static 函数 

TINY 提供 五 种 常见 类 型 的 静态 内 容 : HTML 文件 、 无 格式 的 文本 文件 ， 以 及 编码 
为 GIF、PNG 和 JPG 格式 的 图 片 。 

图 11-34 中 的 serve_ static 函数 发 送 一 个 HTTP 响应 ， 其 主体 包含 一 个 本 地 文件 的 
内 容 。 首 先 ， 我 们 通过 检查 文件 名 的 后 缀 来 判断 文件 类 型 (第 7 行 )， 并 且 发 送 响应 行 和 响 
应 报头 给 客户 端 ( 第 8 一 13 行 )。 注 意 用 一 个 空 行 终止 报头 。 


676 第 三 部 分 程序 间 的 交互 和 通信 





code/netp/tiny/tiny.c 
1 void serve_static(int fd, char *filename, int filesize) 
2 
3 int srcfd; 
4 char *srcp, filetype[MAXLINE], buf [MAXBUF] ; 
5 
6 /* Send response headers to client */ 
学 get_filetype(filename, filetype); 
8 sprintf (buf, "HTTP/1.0 200 OK\r\n"); 
9 sprintf (buf, "%sServer: Tiny Web Server\r\n", buf); 
10 sprintf (buf, "%sConnection: close\r\n", buf); 
请 sprintf (buf, "%sContent-length: %d\r\n", buf, filesize); 
记 sprintf (buf, "%sContent-type: %sNrNnNTNn"，buf ，filetype) ; 
13 Rio_writen(fd, buf, strlen(buf)); 
14 printf("Response headers:\n'); 
1 printf("%s", buf); 
16 
权 /* Send response body to client */ 
18 srcfd = Open(filename, 0_RDONLY, 0); 
19 srcp = Mmap(0, filesize, PROT_READ, MAP_PRIVATE, srcfd, 0); 
20 Close(srcfd) ; 
pa Rio_writen(fd, srcp, filesize); 
22 Munmap(srcp, filesize); 
23 } 
24 
25 /* 
26 * get_filetype - Derive file type from filename 
2 */ 
28 void get_filetype(char *filename, char *filetype) s 
29  { 
30 if (strstr(filename, ".html")) 
31 strcpy (filetype, "text/html"); 
32 else if (strstr(filename, ".gif")) 
33 strcpy (filetype, "image/gif"); 
34 else if (strstr(filename, ".png")) 
35 strcpy(filetype, "image/png"); 
36 else if (strstr(filename, ".jpg")) 
37 strcpy (filetype, "image/jpeg"); 
38 else 
39 strcpy(filetype, "text/plain'"); 
40 小 


code/netp/tiny/tiny.c 
图 11-34 TINY serve_static 为 客户 端 提供 静态 内 容 


接着 ， 我 们 将 被 请 求 文件 的 内 容 复制 到 已 连接 描述 符 fd 来 发 送 响 应 主体 。 这 里 的 代 
码 是 比较 微妙 的 ， 需 要 仔细 研究 。 第 18 行 以 读 方式 打开 filename， 并 获得 它 的 描述 符 。 
在 第 19 行 ，Linux mmap 函数 将 被 请 求 文件 映射 到 一 个 虚拟 内 存 空间 。 回 想 我 们 在 第 9.8 
节 中 对 mmap 的 讨论 ， 调 用 mmap 将 文件 srcfd 的 前 filesize 个 字 节 映射 到 一 个 从 地 址 
srcp 开始 的 私有 只 读 虚 拟 内 存 区 域 。 
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一 旦 将 文件 映射 到 内 存 ， 就 不 再 需要 它 的 描述 符 了 ， 所 以 我 们 关闭 这 个 文件 (第 20 
行 )。 执 行 这 项 任务 失败 将 导致 潜在 的 致命 的 内 存 泄漏 。 第 21 行 执行 的 是 到 客户 端的 实际 
文件 传送 。rio_writen 函数 复制 从 srcp 位 置 开 始 的 filesize 个 字 节 (它们 当然 已 经 被 
映射 到 了 所 请 求 的 文件 ) 到 客户 端的 已 连接 描述 符 。 最 后 ， 第 22 行 释 放 了 映射 的 虚拟 内 存 
区 域 。 这 对 于 避免 潜在 的 致命 的 内 存 泄漏 是 很 重要 的 。 

7. serve_dynamic 函数 

TINY 通过 派生 一 个 子 进程 并 在 子 进程 的 上 下 文中 运行 一 个 CGI 程序 ， 来 提供 各 种 类 
型 的 动态 内 容 。 

图 11-35 中 的 serve_dynamic 函数 一 开始 就 向 客户 端 发 送 一 个 表明 成 功 的 响应 行 ， 
同时 还 包括 带 有 信息 的 Server 报头 。CGI 程 序 负责 发 送 响 应 的 剩余 部 分 。 注 意 ， 这 并 不 
像 我 们 可 能 希望 的 那样 健壮 ， 因 为 它 没有 考虑 到 CGI 程序 会 遇 到 某 些 错误 的 可 能 4 


code/netp/tiny/tiny.c 
void serve_dynamic(int fd, char *filename, char *cgiargs) 


1 

六" 。 滤 

3 char buf [MAXLINE], *emptylist[] = { NULL }; 

4 

5 /* Return first part of HTTP response */ 

6 sprintf (buf , "HTTP/1.0 200 OK\r\n"); 

2 Rio_writen(fd, buf, strlen(buf)); 

8 sprintf (buf, "Server: Tiny Web Server\r\n'); 

9 Rio_writen(fd, buf, strlen(buf)); 

10 

11 if (Fork() == 0) { /* Child */ 

齐 /* Real server would set all CGI vars here */ 

13 setenv ("QUERY_STRING", cgiargs, 1); 

14 Dup2(fd, STDOUT_FILENO); /* Redirect stdout to client */ 
15 Execve(filename, emptylist, environ); /* Run CGI program */ 
16 } 

7 Wait (NULL); /* Parent waits for and reaps child */ 

ne 证 


code/netp/tiny/tiny.c 
图 11-35 TINY serve dynamic 为 客户 端 提供 动态 内 容 


在 发 送 了 响应 的 第 一 部 分 后 ， 我 们 会 派生 一 个 新 的 子 进程 (第 11 行 )。 子 进程 用 来 自 
请 求 URI 的 CGI 参数 初始 化 QUERY _ STRING 环境 变量 (第 13 行 )。 注 意 , 一 个 真正 的 
服务 器 还 会 在 此 处 设置 其 他 的 CGI 环境 变量 。 为 了 简短 ， 我 们 省 略 了 这 一 步 。 

接 下 来 ， 子 进程 重 定向 它 的 标准 输出 到 已 连接 文件 描述 符 ( 第 14 行 )， 然 后 加 载 并 运行 
CGI 程序 (第 15 行 )。 因 为 CGI 程序 运行 在 子 进 程 的 上 下 文中 ， 它 能 够 访问 所 有 在 调用 ex- 
ecve 函数 之 前 就 存在 的 打开 文件 和 环境 变量 。 因 此 ，CGI 程序 写 到 标准 输出 上 的 任何 东西 都 
将 直接 送 到 客户 端 进程 ， 不 会 受到 任何 来 自 父 进程 的 和 干涉。 其间， 父 进程 阻塞 在 对 wait 的 
调用 中 ， 等 待 当 子 进程 终止 的 时 候 ， 回 收 操作 系统 分 配给 子 进程 的 资源 (第 17 行 )。 


旁 注 | 处 理 过 早 关闭 的 连接 

尽管 一 个 Web 服务 器 的 基本 功能 非常 简单 ， 但 是 我 们 不 想 给 你 一 个 假象 ， 以 为 编写 一 个 
实际 的 Web 服务 器 是 非常 简单 的 。 构 造 一 个 长 时 间 运 行 而 不 崩 演 的 健壮 的 Web 服务 器 是 一 
件 困难 的 任务 ， 比 起 在 这 里 我 们 已 经 学 习 了 的 内 容 ， 它 要 求 对 Linux 系统 编程 有 更 加 深入 的 
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理解 。 例 如 ， 如 果 一 个 服务 器 写 一 个 已 经 被 客户 端 关 闭 了 的 连接 (比如 ， 因 为 你 在 浏览 器 上 
单 击 了 “Stop” 按 钮 )， 那 么 第 一 次 这 样 的 写 会 正常 返回 ， 但 是 第 二 次 写 就 会 引起 发 送 SIG- 
PIPE 信号 ， 这 个 信号 的 默认 行为 就 是 终止 这 个 进程 。 如 果 捕 获 或 者 忽略 SIGPIPE 信号 ， 那 
么 第 二 次 写 操作 会 返回 值 一 1， 并 将 errno 设置 为 EPIPE。strerr 和 perror 函数 将 EPIPE 
错误 报告 为 “Broken pipe”， 这 是 一 个 迷惑 了 很 多 人 的 不 太 直 观 的 信息 。 总 的 来 说 ， 一 个 健壮 
的 服务 器 必须 捕获 这 些 SIGPIPE 信号 ， 并 且 检 查 write 函数 调用 是 否 有 PIPE 错误 。 


机:7 车 


每 个 网 络 应 用 都 是 基于 客户 端 -服务 器 模型 的 。 根 据 这 个 模型 ， 一 个 应 用 是 由 一 个 服务 器 和 一 个 或 多 
个 客户 端 组 成 的 。 服 务 器 管理 资源 ， 以 某 种 方式 操作 资源 ， 为 它 的 客户 端 提供 服务 。 客 户 端 -服务 器 模型 
中 的 基本 操作 是 客户 端 -服务 器 事务 ， 它 是 由 客户 端 请 求 和 跟随 其 后 的 服务 器 响应 组 成 的 。 

客户 端 和 服务 器 通过 因特网 这 个 全 球 网 络 来 通信 。 从 程序 员 的 观点 来 看 ， 我 们 可 以 把 因特网 看 成 是 一 个 全 
球 范围 的 主机 集合 ， 具 有 以 下 几 个 属性 : 1) 每 个 因特网 主机 都 有 一 个 唯一 的 32 位 名 字 ， 称 为 它 的 下 地址 。2) 
IP 地 址 的 集合 被 映射 为 一 个 因特网 域名 的 集合 。3) 不 同 因 特 网 主机 上 的 进程 能 够 通过 连接 互相 通信 。 

客户 端 和 服务 器 通过 使 用 套 接 字 接口 建立 连接 。 一 个 套 接 字 是 连接 的 一 个 端点 ， 连 接 以 文件 描述 符 
的 形式 提供 给 应 用 程序 。 套 接 字 接 口 提供 了 打开 和 关闭 套 接 字 描 述 符 的 函数 。 客 户 端 和 服务 器 通过 读 写 
这 些 描述 符 来 实现 彼此 间 的 通信 。 

Web 服务 器 使 用 HTTP 协议 和 它们 的 客户 端 (例如 浏览 器 ) 彼 此 通信 。 浏 览 器 向 服务 器 请 求 静态 或 者 
动态 的 内 容 。 对 静态 内 容 的 请 求 是 通过 从 服务 器 磁盘 取得 文件 并 把 它 返回 给 客户 端 来 服务 的 。 对 动态 内 
容 的 请 求 是 通过 在 服务 器 上 一 个 子 进程 的 上 下 文中 运行 一 个 程序 并 将 它 的 输出 返回 给 客户 端 来 服务 的 。 
CGI 标准 提供 了 一 组 规则 ， 来 管理 客户 端 如 何 将 程序 参数 传递 给 服务 器 ， 服 务 器 如 何 将 这 些 参 数 以 及 其 
他 信息 传递 给 子 进程 ， 以 及 子 进程 如 何 将 它 的 输出 发 送 回 客户 端 。 只 用 几 百 行 C 代码 就 能 实现 一 个 简单 
但 是 有 功效 的 Web 服务 器 ， 它 既 可 以 提供 静态 内 容 ， 也 可 以 提供 动态 内 容 。 


参考 文献 说 明 


有 关 因 特 网 的 官方 信息 源 被 保存 在 一 系列 的 可 免费 获取 的 带 编号 的 文档 中 ， 称 为 RFC(Requests for 
Comments， 请 求 注解 ，Internet 标准 (草案 )) 。 在 以 下 网 站 可 获得 可 搜索 的 RFC 的 索引 : 

http://rfc-editor.org 

RFC 通常 是 为 因特网 基础 设施 的 开发 者 编写 的 ， 因 此 ， 对 于 普通 读者 来 说 ， 往 往 过 于 详细 了 。 然 
而 ， 要 想 获得 权威 信息 ， 没 有 比 它 更 好 的 信息 来 源 了 。HTTP/1. 1 协议 记录 在 RFC 2616 中 。MIME 类 
型 的 权威 列表 保存 在 ， 

http://www.iana.org/assignments/media-types 

Kerrisk 是 全 面 Linux 编程 的 圣经 ， 提 供 了 现代 网 络 编程 的 详细 讨论 [62]。 关 于 计算 机 网 络 互 联 有 大 量 
很 好 的 通用 文献 [65，84，114]。 伟 大 的 科技 作家 W. Richard Stevens 编写 了 一 系列 相关 的 经 典 文献 ， 如 高 级 
Unix 编程 [111]、 因 特 网 协议 [109，120，107]， 以 及 Unix 网 络 编程 [108，110]。 认 真 学 习 Unix 系统 编程 
的 学 生 会 想 要 研究 所 有 这 些 内 容 。 不 幸 的 是 ，Stevens 在 1999 年 9 月 1 日 逝世 。 我们 会 永远 纪 住 他 的 贡献 。 


家 庭 作 业 


** 11.6 A. 修改 TINY 使 得 它 会 原样 返回 每 个 请 求 行 和 请 求 报头 。 
B. 使 用 你 喜欢 的 浏览 器 向 TINY 发 送 一 个 对 静态 内 容 的 请 求 。 把 TINY 的 输出 记录 到 一 个 文件 中 。 
C. 检查 TINY 的 输出 ， 确 定 你 的 浏览 器 使 用 的 HTTP 的 版 本 。 
D. 参考 RFC 2616 中 的 HTTP/1. 1 标准 ， 确 定 你 的 浏览 器 的 HTTP 请 求 中 每 个 报头 的 含义 。 你 可 
以 从 www.rfc-editor.org/rfc.html 获得 RFC 2616 。 
** 11.7 扩展 TINY， 使 得 它 可 以 提供 MPG 视频 文件 。 用 一 个 真正 的 浏览 器 来 检验 你 的 工作 。 
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** 11. 8 


** 11.9 


** 11. 10 


rj 
于 11. 12 


*# 11. 13 


练习 


修改 TINY， 使 得 它 在 SIGCHLD 处 理 程序 中 回收 操作 系统 分 配给 CGI 子 进程 的 资源 ， 而 不 是 显 
式 地 等 待 它们 终止 。 
修改 TINY， 使 得 当 它 服务 静态 内 容 时 ， 使 用 malloc、rio_readn 和 rio_writen， 而 不 是 mmap 
和 rio_writen 来 复制 被 请 求 文件 到 已 连接 描述 符 。 
A. 写 出 图 11-27 中 CGI adder 函数 的 HTML 表单 。 你 的 表单 应 该 包括 两 个 文本 框 ， 用 户 将 需要 
相 加 的 两 个 数字 填 在 这 两 个 文本 框 中 。 你 的 表单 应 该 使 用 GET 方法 请 求 内 容 。 
B. 用 这 样 的 方法 来 检查 你 的 程序 : 使 用 一 个 真正 的 浏览 器 向 TINY 请 求 表 单 ， 向 TINY 提交 填 
写 好 的 表单 ， 然 后 显示 adder 生成 的 动态 内 容 。 
扩展 TINY， 以 支持 HTTP HEAD 方法。 使 用 TELNET 作为 Web 客户 端 来 验证 你 的 工作 。 
扩展 TINY， 使 得 它 服务 以 HTTP POST 方式 请 求 的 动态 内 容 。 用 你 喜欢 的 Web 浏览 器 来 验证 你 
的 工作 。 
修改 TINY， 使 得 它 可 以 干净 地 处 理 ( 而 不 是 终止 ) 在 write 函数 试图 写 一 个 过 早 关闭 的 连接 时 发 
生 的 SIGPIPE 信号 和 EPIPE 错误 。 


题 答案 













十 六 进 制 地 址 点 分 十 进 制 地 址 


code/netp/hex2dd.c 
1 #include "csapp.h" 
2 
3 int main(int argc, char **argv) 
4 区 
5 struct in_addr inaddr; /* Address in network byte order */ 
6 uint32_t addr; /* Address in host byte order */ 
7 char buf [MAXBUF] ; /* Buffer for dotted-decimal string */ 
8 
9 if (argc != 2) { 
10 fprintf (stderr, "usage: %s <hex number>\n", argv[0]); 
11 exit(0) ; 
12 所 
13 sscanf (argv[1], "%x", &addr); 
14 inaddr.s_addr = htonl(addr); 
15 
16 if (!inet_ntop(AF_INET, &inaddr, buf, MAXBUF)) 
17 unix_error("inet_ntop"); 
18 printf("%s\n", buf); 
19 
20 exit (0); 
21 } 
code/netp/hex2dd.c 
code/netp/dd2hex.c 


#include "csapp.h" 


1 

2 

3 int main(int argc, char **argv) 
4 


{ 
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5 struct in_addr inaddr; /* Address in network byte order */ 
6 int rc; 
8 if (argc != 2) { 
9 fprintf (stderr, "usage: %s <dotted-decimal>\n", argv[0]); 
10 exit (0); 
11 和 
12 
13 rc = inet_pton(AF_INET, argv[1i], &inaddr); 
14 if (rc == 0) 
15 app_error("inet_pton error: invalid dotted-decimal address") ; 
16 else if (rc < 0) 
思 unix_error("inet_pton error"); 
18 
19 printf ("Ox%x\n", ntohl (inaddr.s_addr)); 
20 exit(0); 
21 } 
code/netp/dd2hex.c 
下 面 是 解决 方案 。 注 意 ， 使 用 inet_ntop 要 困难 多 少 ， 它 要 求 很 麻烦 的 强制 类 型 转换 和 深层 嵌 套 


结构 引用 。getnameinfo 函数 要 简单 许多 ， 因 为 它 为 我 们 完成 了 这 些 工 作 。 
code/netp/hostinfo-ntop.c 
#include "csapp.h" 


1 

3 int main(int argc, char **argv) 

4 { 

5 struct addrinfo *p, *listp, hints; 

6 struct Sockaddr_in *sockp; 

7 char buf [MAXLINE]; 

8 int rc; 

9 

10 if (argc != 2) { 

11 fprintf (stderr, "usage: %s <domain name>\n", argv[0]); 
12 exit (0); 

13 小 

14 

15 /* Get a list of addrinfo records */ 

16 memset (&hints, 0, sizeof(struct addrinfo)); 

17 hints.ai_family = AF_INET; /* IPv4 only */ 

18 hints.ai_socktype = SOCK_STREAM; /* Connections only */ 

19 if ((rc = getaddrinfo(argv[1] NULL, &hints, &listp)) != 0) { 
20 fprintf(stderr, "getaddrinfo error: %s\n", gai_strerror(rc)); 
21 exit (1); 

22 上 

23 

24 /* Walk the list and display each associated IP address */ 
25 for (p = listp; p; P = p->ai_next) { 

26 sockp = (struct sockaddr_in *)p->ai_addr; 

2 Inet_ntop(AF_INET, &(sockp->sin_addr), buf, MAXLINE); 
28 printf("%s\n", buf); 

29 让 

30 

1 /* Clean up */ 

32 Freeaddrinfo(listp); 

33 

34 exit(0) ; 

35 


code/netp/hostinfo-ntop.c 
标准 I/O 能 在 CGI 程序 里 工作 的 原因 是 ， 在 子 进程 中 运行 的 CGI 程序 不 需要 显 式 地 关闭 它 的 输入 
输出 流 。 当 子 进程 终止 时 ， 内 核 会 自动 关闭 所 有 描述 符 。 


C H A P 下 E R 公 


并 发 编程 


正如 我 们 在 第 8 章 学 到 的 ， 如 果 逻 辑 控制 流 在 时 间 上 重要 ,那么 它们 就 是 并 发 的 
(concurrent) 。 这 种 常见 的 现象 称 为 并 发 (concurrency)， 出 现在 计算 机 系统 的 许多 不 同 层 
面 上 。 硬 件 异 常 处 理 程序 、 进 程 和 Linux 信和 号 处 理 程序 都 是 大 家 很 熟悉 的 例子 。 

到 目前 为 止 ， 我 们 主要 将 并 发 看 做 是 一 种 操作 系统 内 核 用 来 运行 多 个 应 用 程序 的 机 
制 。 但 是 ， 并 发 不 仅仅 局 限于 内 核 。 它 也 可 以 在 应 用 程序 中 扮演 重要 角色 。 例 如 ， 我 们 已 
经 看 到 Linux 信和 号 处 理 程序 如 何 允 许 应 用 响应 异步 事件 ， 例 如 用 户 键 入 Ctrl 十 C， 或 者 程 
序 访问 虚拟 内 存 的 一 个 未 定义 的 区 域 。 应 用 级 并 发 在 其 他 情况 下 也 是 很 有 用 的 ， 

@ 访问 慢 速 IO 设备 。 当 一 个 应 用 正在 等 待 来 自 慢 速 IO 设备 (例如 磁盘 ) 的 数据 到 达 

时 ， 内 核 会 运行 其 他 进程 ， 使 CPU 保持 繁忙 。 每 个 应 用 都 可 以 按照 类 似 的 方式 ， 
通过 交替 执行 IO 请 求 和 其 他 有 用 的 工作 来 利用 并 发 。 

e@ 与 人 交互 。 和 计算 机 交互 的 人 要 求 计 算 机 有 同时 执行 多 个 任务 的 能 力 。 例 如 ， 他 们 
在 打印 一 个 文档 时 ， 可 能 想 要 调整 一 个 窗口 的 大 小 。 现 代 视 窗 系统 利用 并 发 来 提供 
这 种 能 力 。 每 次 用 户 请 求 某 种 操作 (比如 通过 单 击 鼠 标 ) 时 ， 一 个 独立 的 并 发 逻辑 流 
被 创建 来 执行 这 个 操作 。 

@ 通过 推迟 工作 以 降低 延迟 。 有 时 ， 应 用 程序 能 够 通过 推迟 其 他 操作 和 并 发 地 执行 它 
们 ， 利 用 并 发 来 降低 某 些 操作 的 延迟 。 比 如 ， 一 个 动态 内 存 分 配器 可 以 通过 推迟 合 
并 ， 把 它 放 到 一 个 运行 在 较 低 优先 级 上 的 并 发 “合并 ” 流 中 ， 在 有 空闲 的 CPU 周 
期 时 充分 利用 这 些 空闲 周期 ， 从 而 降低 单个 free 操作 的 延迟 。 

里 服务 多 个 网 络 客户 端 。 我 们 在 第 11 章 中 学 习 的 迭代 网 络 服务 器 是 不 现实 的 ， 因 为 它 
们 一 次 只 能 为 一 个 客户 端 提供 服务 。 因 此 ， 一 个 慢 速 的 客户 端 可 能 会 导致 服务 器 拒绝 
为 所 有 其 他 客户 端 服 务 。 对 于 一 个 真正 的 服务 器 来 说 ， 可 能 期 望 它 每 秒 为 成 百 上 千 的 
客户 端 提供 服务 ， 由 于 一 个 慢 速 客户 端 导 致 拒绝 为 其 他 客户 端 服 务 ， 这 是 不 能 接受 
的 。 一 个 更 好 的 方法 是 创建 一 个 并 发 服务 器 ， 它 为 每 个 客户 端 创建 一 个 单独 的 逻辑 
流 。 这 就 允许 服务 器 同时 为 多 个 客户 端 服务 ， 并 且 也 避免 了 慢 速 客 户 端 独占 服务 器 。 

@ 在 多 核 机 器 上 进行 并 行 计 算 。 许 多 现代 系统 都 配备 多 核 处 理 器 ， 多 核 处 理 器 中 包含 
有 多 个 CU。 被 划分 成 并 发 流 的 应 用 程序 通常 在 多 核 机 器 上 比 在 单 处 理 器 机 器 上 运 
行 得 快 ， 因 为 这 些 流 会 并 行 执行 ， 而 不 是 交错 执行 。 

使 用 应 用 级 并 发 的 应 用 程序 称 为 并 发 程序 (concurrent program)。 现 代 操 作 系 统 提供 

了 三 种 基本 的 构造 并 发 程序 的 方法 : 

@ 进程 。 用 这 种 方法 ， 每 个 逻辑 控制 流 都 是 一 个 进程 ， 由 内 核 来 调度 和 维护 。 因 为 进 
程 有 独立 的 虚拟 地 址 空间 ， 想 要 和 其 他 流通 信 ， 控 制 流 必须 使 用 某 种 显 式 的 进程 间 
通信 (interprocess communication，IPC) 机 制 。 

@ I/O 多 路 复 用 。 在 这 种 形式 的 并 发 编程 中 ， 应 用 程序 在 一 个 进程 的 上 下 文中 显 式 地 
调度 它们 自己 的 逻辑 流 。 逻 辑 流 被 模型 化 为 状态 机 ， 数 据 到 达 文 件 描 述 符 后 ， 主 程 
序 显 式 地 从 一 个 状态 转换 到 另 一 个 状态 。 因 为 程序 是 一 个 单独 的 进程 ， 所 以 所 有 的 
流 都 共享 同一 个 地 址 空间 。 
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e 线程 。 线 程 是 运行 在 一 个 单一 进程 上 下 文中 的 逻辑 流 ， 由 内 核 进行 调度 。 你 可 以 把 
线程 看 成 是 其 他 两 种 方式 的 混合 体 ， 像 进程 流 一 样 由 内 核 进行 调度 ， 而 像 IO 多 路 
复 用 流 一 样 共 享 同一 个 虚拟 地 址 空间 。 
本 章 研 究 这 三 种 不 同 的 并 发 编程 技术 。 为 了 使 我 们 的 讨论 比较 具体 ， 我 们 始终 以 同一 
个 应 用 为 例 一 一 11. 4. 9 节 中 的 迭代 echo 服务 器 的 并 发 版 本 。 


12. 1 基于 进程 的 并 发 编程 


构造 并 发 程序 最 简单 的 方法 就 是 用 进程 ， 使 用 那些 大 家 都 很 熟悉 的 函数 ， 像 fork、 
exec 和 waitpid。 例 如 ， 一 个 构造 并 发 服务 器 的 自然 方法 就 是 ， 在 父 进程 中 接受 客户 端 
连接 请 求 ， 然 后 创建 一 个 新 的 子 进程 来 为 每 个 新 客户 端 提供 服务 。 

为 了 了 解 这 是 如 何 工作 的 ， 假 设 我 们 有 两 个 客户 端 和 一 个 服务 器 ， 服 务 器 正在 监听 一 
个 监听 描述 符 ( 比 如 指 述 符 3) 上 的 连接 请 求 。 现 在 假设 服务 器 接受 了 客户 端 1 的 连接 请 求 ， 
并 返回 一 个 已 连接 描述 符 ( 比 如 指 述 符 4) ， 如 图 12-1 所 示 。 在 接受 连接 请 求 之 后 ， 服 务 器 
派生 一 个 子 进程 ， 这 个 子 进程 获得 服务 器 描述 符 表 的 完整 副本 。 子 进程 关闭 它 的 副本 中 的 
监听 描述 符 3， 而 父 进程 关闭 它 的 已 连接 描述 符 4 的 副本 ， 因 为 不 再 需要 这 些 描述 符 了 。 
这 就 得 到 了 图 12-2 中 的 状态 ， 其 中 子 进程 正 忙于 为 客户 端 提供 服务 。 









数据 传送 





connfad(4) 


1 ~“、、、 listenfd(3 
clientfd su Sn) . listenfad(3) 
q clientfqd 
服务 器 9 服务 器 
connfd(4) 
clientfd clientfd 


图 12-1 第 一 步 : 服务 器 接受 客户 端的 连接 请 求 ” 图 12-2 第 二 步 : 服务 器 派生 一 个 子 进程 为 这 个 客户 端 服务 

因为 父 、 子 进程 中 的 已 连接 描述 符 都 指向 同一 个 文件 表 表 项 ， 所 以 父 进程 关闭 它 的 已 
连接 描述 符 的 副本 是 至 关 重 要 的 。 否则， 将 永 不 会 释放 已 连接 描述 符 4 的 文件 表 条 目 ， 而 
且 由 此 引起 的 内 存 泄漏 将 最 终 消 耗 光 可 用 的 内 存 ， 使 系统 崩 演 。 

现在 ， 假 设 在 父 进程 为 客户 端 1 创建 了 子 进 程 之 后 ， 它 接受 一 个 新 的 客户 端 2 的 连接 请 
求 ， 并 返回 一 个 新 的 已 连接 描述 符 ( 比 如 描述 符 5) ， 如 图 12-3 所 示 。 然 后 ， 父 进程 又 派生 另 
一 个 子 进程 ， 这 个 子 进程 用 已 连接 描述 符 5 为 它 的 客户 端 提 供 服务 ， 如 图 12-4 所 示 。 此 时 ， 
父 进程 正在 等 待 下 一 个 连接 请 求 ， 而 两 个 子 进程 正在 并 发 地 为 它们 各 自 的 客户 端 提 供 服务 。 





数据 传送 





listenfd(3) 
| 服务 器 


connfd(4) clientfd 





ETTentEaE listenfd(3) 
| 才 
i Gomme clientfd Ss 
clientfad connfd(5) 


图 12-3 第 三 步 ， 服务 器 接受 另 一 个 连接 请 求 ”图 12-4 第 四 步 : 服务 器 派生 另 一 个 子 进程 为 新 的 客户 端 服务 
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12. 1.1 基于 进程 的 并 发 服务 器 


图 12-5 展示 了 一 个 基于 进程 的 并 发 echo 服务 器 的 代码 。 第 29 行 调用 的 echo 函数 来 
自 于 图 11-21。 关 于 这 个 服务 器 ， 有 几 点 重要 内 容 需 要 说 明 : 

e 首先 ， 通 常服 务 器 会 运行 很 长 的 时 间 ， 所 以 我 们 必须 要 包括 一 个 SIGCHLD 处 理 程 
序 ， 来 回收 僵 死 (zombie) 子 进程 的 资源 (第 4 一 9 行 )。 因 为 当 SIGCHLD 处 理 程序 
执行 时 ，SIGCHLD 信和 号 是 阻塞 的 ， 而 Linux 信号 是 不 排队 的 ， 所 以 SIGCHLD 处 
理 程序 必须 准备 好 回收 多 个 伪 死 子 进程 的 资源 。 

e 其 次 ， 父 子 进程 必须 关闭 它们 各 自 的 connfd( 分 别 为 第 33 行 和 第 30 行 ) 副 本 。 就 
像 我 们 已 经 提 到 过 的 ， 这 对 父 进程 而 言 尤为 重要 ， 它 必须 关闭 它 的 已 连接 描述 符 ， 


以 避免 内 存 泄漏 。 
e 最 后 ， 因 为 套 接 字 的 文件 表 表 项 中 的 引用 计数 ， 直 到 父子 进程 的 connfd 都 关闭 了 ， 
到 客户 端的 连接 才 会 终止 。 


code/conc/echoserverp.c 


1 #include "csapp.h" 

2 void echo(int connfd); 

3 

4 void sigchld_handler(int sig) 

全 

6 while (waitpid(-1，0，WNOHANG) > 0) 

有 ; 

8 return; 

9 让 

10 

11 int main(int argc, char **argv) 

1 站 

13 int listenfd, connfd; 

14 socklen _t clientlen; 

i struct sockaddr_storage clientaddr; 

16 

17 if (argc != 2) { 

18 fprintf(stderr, "usage: %s <port>\n", argv[0]); 

19 exit (0); 

20 } 

六 

22 Signal (SIGCHLD, sigchld_handler); 

2 listenfd = Open_listenfd(argv[1]); 

24 while (1) { 

25 clientlen = sizeof (struct sockaddr_storage); 

26 connfd = Accept(listenfd, (SA *) &clientaddr, &clientlen); 
27 if (Fork() == 0) { 

28 Close(listenfd); /* Child closes its listening socket */ 
29 echo(connfd); /* Child services client */ 

30 Close(connfd) ; /* Child closes connection with client */ 
31 exit(0); /* Child exits */ 

32 上 

33 Close(connfd) ; /* Parent closes connected socket (important!) */ 
34 } 

35 3} 


code/conc/echoserverp.c 


图 12-5 ”基于 进程 的 并 发 echo 服务 器 。 父 进程 派生 一 个 子 进程 来 处 理 每 个 新 的 连接 请 求 
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12. 1.2 进程 的 优 劣 
对 于 在 父 、 子 进程 间 共 享 状态 信息 ， 进 程 有 一 个 非常 清晰 的 模型 : 共享 文件 表 ， 但 是 不 共 
享用 户 地址 空间 。 进 程 有 独立 的 地 址 空间 既是 优点 也 是 缺点 。 这 样 一 来 ， 一 个 进程 不 可 能 不 小 
心 覆 盖 另 一 个 进程 的 虚拟 内 存 ， 这 就 消除 了 许多 令 人 迷惑 的 错误 一 一 这 是 一 个 明显 的 优点 。 
另 一 方面 ， 独 立 的 地 址 空间 使 得 进程 共享 状态 信息 变 得 更 加 困难 。 为 了 共享 信息 ， 它 
们 必须 使 用 显 式 的 IPC( 进 程 间 通信 机制 。( 人 参见 下 面 的 旁 注 。.) 基 于 进程 的 设计 的 另 一 个 
缺点 是 ， 它 们 往往 比较 慢 ， 因 为 进程 控制 和 IPC 的 开销 很 高 。 


在 本 书 中 ， 你 已 经 遇 到 好 几 个 IPC 的 例子 了 。 第 8 章 中 的 waitpid 函数 和 信号 是 4 
基本 的 IPC 机 制 ， 它 们 允许 进程 发 送 小 消息 到 同一 主机 上 的 其 他 进程 。 第 11 章 的 套 接 
字 接 口 是 IPC 的 一 种 重要 形式 ， 它 允许 不 同 主机 上 的 进程 交换 任意 的 字 节 流 。 然 而 ， 术 
语 Unix IPC 通常 指 的 是 所 有 允许 进程 和 同一 台 主 机 上 其 他 进程 进行 通信 的 技术 。 其 中 
包括 管道 、 先 进 先 出 (FIFO)、 系 统 V 共享 内 存 ， 以 及 系统 V 信号 量 (semaphore)。 这 
些 机 制 超出 了 我 们 的 讨论 范围 。Kerrisk 的 著作 [62] 是 很 好 的 参考 资料 。 


谍 绚 练习 题 12. 1 在 图 12-5 中 ， 并 发 服务 器 的 第 33 行 上 ， 父 进程 关闭 了 已 连接 描述 符 
后 ， 子 进程 仍然 能 够 使 用 该 描述 符 和 客户 端 通信 。 为 什么 ? 

攻 练习 题 12. 2 如果 我 们 要 删除 图 12-5 中 关闭 已 连接 描述 符 的 第 30 行 ， 从 没有 内 存 湛 
漏 的 角度 来 说 ， 代 码 将 仍然 是 正确 的 。 为 什么 ? 


12.2 基于 MO 多 路 复 用 的 并 发 编程 

假设 要 求 你 编写 一 个 echo 服务 器 ， 它 也 能 对 用 户 从 标准 输入 键入 的 交互 命令 做 出 响 
应 。 在 这 种 情况 下 ， 服 务 器 必须 响应 两 个 互相 独立 的 MO 事件 : 1) 网 络 客户 端 发 起 连接 请 
求 ，2) 用 户 在 键盘 上 键入 命令 行 。 我 们 先 等 待 哪个 事件 呢 ? 没有 哪个 选择 是 理想 的 。 如 果 
在 accept 中 等 待 一 个 连接 请 求 ， 我 们 就 不 能 响应 输入 的 命令 。 类 似 地 ， 如 果 在 read 中 
等 待 一 个 输入 命令 ， 我 们 就 不 能 响应 任何 连接 请 求 。 

针对 这 种 困境 的 一 个 解决 办 法 就 是 IO 多 路 复 用 (I/O multiplexing) 技 术 。 基 本 的 思 
路 就 是 使 用 select 函数 ， 要 求 内 核 挂 起 进程 ， 只 有 在 一 个 或 多 个 MO 事件 发 生 后 ， 才 将 
控制 返回 给 应 用 程序 ， 就 像 在 下 面 的 示例 中 一 样 : 

@ 当 集合 {0，4} 中 任意 描述 符 准 备 好 读 时 返回 。 

e 当 集 合 {1，2，7)}) 中 任意 描述 符 准备 好 写 时 返回 。 

e 如 果 在 等 待 一 个 I/O 事件 发 生 时 过 了 152. 13 秒 ， 就 超时 。 

select 是 一 个 复杂 的 函数 ， 有 许多 不 同 的 使 用 场景 。 我 们 将 只 讨论 第 一 种 场景 : 等 
待 一 组 描述 符 准 备 好 读 。 全 面 的 讨论 请 参考 [62，110]。 








#include <sys/select.h> 


int select(int n, fd_set *fdset, NULL, NULL, NULL); 
返回 已 准备 好 的 描述 符 的 非 零 的 个 数 ， 若 出 错 则 为 一 1。 


FD_ZERO (fd_set *fdset); /* Clear all bits in fdset +*/ 
FD_CLR(int fd, fd_set *fdset); /* Clear bit fd in fdset */ 
FD_SET(int fd, fd_set *fdset); /* Turn on bit fd in fdset */ 


FD_ISSET(int fd, fd_set *fdset); /* Is bit fd in fdset on? */ 








处 理 描述 符 集合 的 宏 。 
| 
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select 函数 处 理 类 型 为 fd_set 的 集合 ， 也 叫做 描述 符 集合 。 逻 辑 上 ， 我 们 将 描述 符 

集合 看 成 一 个 大 小 为 的 位 向 量 (在 2. 1 节 中 介绍 过 ): 
br1 ,°° ,D1 ,bo 

每 个 位 b; 对 应 于 描述 符 k。 当 和 且 仅 当 6 王 1， 描述 符 & 才 表明 是 描述 符 集合 的 一 个 元 素 。 只 
允许 你 对 描述 符 集合 做 三 件 事 : 1) 分 配 它们 ，2) 将 一 个 此 种 类 型 的 变量 赋值 给 另 一 个 变 
量 ，3) 用 FD_ ZERO、FD_ SET、FD_CLR 和 FD_ISSET 宏 来 修改 和 检查 它们 。 

针对 我 们 的 目的 ，select 函数 有 两 个 输入 : 一 个 称 为 读 集合 的 描述 符 集合 (fdset) 
和 该 读 集合 的 基数 (n) (实际 上 是 任何 描述 符 集合 的 最 大 基数 )。select 函数 会 一 直 阻 塞 ， 
直到 读 集合 中 至 少 有 一 个 描述 符 准备 好 可 以 读 。 当 且 仅 当 一 个 从 该 描述 符 读 取 一 个 字 节 的 
请 求 不 会 阻塞 时 ， 描 述 符 & 就 表示 准备 好 可 以 读 了 。select 有 一 个 副作用 ， 它 修改 参数 
fdset 指向 的 fd_set， 指 明 读 集合 的 一 个 子 集 ， 称 为 准备 好 集合 (ready set)， 这 个 集合 
是 由 读 集合 中 准备 好 可 以 读 了 的 描述 符 组 成 的 。 该 函数 返回 的 值 指 明了 准备 好 集合 的 基 
数 。 注 意 ， 由 于 这 个 副作用 ， 我 们 必须 在 每 次 调用 select 时 都 更 新 读 集合 。 

理解 select 的 最 好 办 法 是 研究 一 个 具体 例子 。 图 12-6 展示 了 可 以 如 何 利 用 select 
来 实现 一 个 迭代 echo 服务 器 ， 它 也 可 以 接受 标准 输入 上 的 用 户 命令 。 一 开始 ， 我 们 用 
图 11-19 中 的 open listenfd 函数 打开 一 个 监听 描述 符 ( 第 16 行 )， 然 后 使 用 FD_ZERO 
创建 一 个 空 的 读 集合 (第 18 行 ): 

listenfd stdin 
3 2 1 0 


read_set (0): [9101010 


接 下 来 ， 在 第 19 和 20 行 中 ,我 们 定义 由 描述 符 0( 标 准 输入 ) 和 描述 符 3( 监 听 描 述 
符 ) 组 成 的 读 集 合 : 
listenfd stdin 
3。 这 1 0 
read_set ({0, 3}): 1 0 0 1 


在 这 里 ， 我 们 开始 典型 的 服务 器 循环 。 但 是 我 们 不 调用 accept 函数 来 等 待 一 个 连接 
请 求 ， 而 是 调用 select 函数 ， 这 个 函数 会 一 直 阻 塞 ， 直 到 监听 描述 符 或 者 标准 输入 准备 
好 可 以 读 (第 24 行 )。 例 如 ， 下 面 是 当 用 户 按 回 车 键 ， 因 此 使 得 标准 输入 描述 符 变 为 可 读 
时 ，select 会 返回 的 ready_set 的 值 : 

listenfd stdin 
3 2 1 0 
ready_set (0): [| 01o1o0of1i| 


一 旦 select 返回 ， 我们 就 用 FD _ ISSET 宏 指 令 来 确定 哪个 描述 符 准备 好 可 以 读 了 。 
如 果 是 标准 输入 准备 好 了 (第 25 行 )， 我 们 就 调用 command 函数 ， 该 函数 在 返回 到 主 程序 
前 ， 会 读 、 解 析 和 响应 命令 。 如 果 是 监听 描述 符 准 备 好 了 (第 27 行 )， 我 们 就 调用 accept 
来 得 到 一 个 已 连接 描述 符 ， 然 后 调用 图 11-22 中 的 echo 函数 ， 它 会 将 来 自 客户 端的 每 一 
行 又 回 送 回去 ， 直 到 客户 端 关 闭 这 个 连接 中 它 的 那 一 端 。 

虽然 这 个 程序 是 使 用 select 的 一 个 很 好 示例 ,但 是 它 仍 然 留 下 了 一 些 问 题 待 解决 。 问 
题 是 一 旦 它 连 接 到 某 个 客户 端 ， 就 会 连续 回 送 输入 行 ， 直 到 客户 端 关闭 这 个 连接 中 它 的 那 一 
端 。 因此， 如 果 键 入 一 个 命令 到 标准 输入 ， 你 将 不 会 得 到 响应 ， 直 到 服务 器 和 客户 端 之 间 结 
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束 。 一 个 更 好 的 方法 是 更 细 粒 度 的 多 路 复 用 ， 服 务 器 每 次 循环 (至 多 ) 回 送 一 个 文本 行 。 


code/conc/select.c 


1 #include "csapp.h" 

5 void echo(int connfd) ; 

3 void command (void); 

4 

5 int main(int argc, char **argv) 

- 二 

4 int listenfd, connfd; 

8 socklen_t clientlen; 

9 struct sockaddr_storage clientaddr; 

10 fd_set read_set, ready_set; 

和 

12 if (argc != 2) { 

13 fprintf (stderr, "usage: %s <port>\n", argv[0]); 
14 exit (0); 

15 } 

16 listenfd = Open_listenfd(argv[1]); 

水 

18 FD_ZERO (&read_set); /* Clear read set */ 
19 FD_SET (STDIN_FILENO, &read_set); /* Add stdin to read set */ 
20 FD_SET(listenfd, &read._set); /* Add listenfd to read set */ 
21 

22 while (1) { 

23 ready_set = read_set; 

24 Select(listenfd+1, &ready_set, NULL, NULL, NULL); 
25 if (FD_ISSET(STDIN_FILENO, &ready_set)) 

26 command(); /* Read command line from stdin */ 
27 if (FD_ISSET(listenfd, &ready_set)) { 

28 clientlen = sizeof(struct sockaddr_storage); 
29 connfd = Accept (listenfd, (SA *)&clientaddr, &clientlen); 
30 echo(connfd); /* Echo client input until EOF */ 
31 Close(connfd); 

32 » 

33 } 

34 } 

35 

36 void command(void) { 

37 char buf [MAXLINE] ; 

38 if (!Fgets(buf, MAXLINE, stdin)) 

39 exit(0); /* EOF */ 

40 printf("%s", buf); /* Process the input command */ 

41 } 


code/conc/select.c 


图 12-6 使 用 IXO 多 路 复 用 的 迭代 echo 服务 器 。 服 务 器 使 用 select 
等 待 监听 描述 符 上 的 连接 请 求 和 标准 输入 上 的 命令 


话 红 练习 题 12.3 在 Linux 系统 里 ， 在 标准 输入 上 键入 Ctrl 十 D 表示 EOF。 图 12-6 中 的 
程序 阻塞 在 对 select 的 调用 上 时 ， 如 果 你 键入 Ctrl 十 DD 会 发 生 什么 ? 
12.2.1 基于 MO 多 路 复 用 的 并 发 事件 驱动 服务 器 


I/O 多 路 复 用 可 以 用 做 并 发 事件 驱动 (event-driven) 程 序 的 基础 ， 在 事件 驱动 程序 中 ， 
某 些 事 件 会 导致 流向 前 推进 。 一 般 的 思路 是 将 逻辑 流 模型 化 为 状态 机 。 不 严格 地 说 ， 一 个 
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状态 机 (state machine) 就 是 一 组 状态 (state)、 输 入 事件 (input event) 和 转移 (transition)， 
其 中 转移 是 将 状态 和 输入 事件 映射 到 状态 。 每 个 转移 是 将 一 个 (输入 状态 ， 输 入 事件 ) 对 映 
射 到 一 个 输出 状态 。 自 循环 (self-loop) 是 同一 输入 和 输出 状态 之 间 的 转移 。 通 常 把 状态 机 
画 成 有 向 图 ， 其 中 节点 表示 状态 ， 有 向 弧 表 示 转 移 ， 而 弧 上 的 标号 表示 输入 事件 。 一 个 状 
态 机 从 某 种 初始 状态 开始 执行 。 每 个 输入 事件 都 会 引发 一 个 从 当前 状态 到 下 一 状态 的 
转移 。 

对 于 每 个 新 的 客户 端 &， 基 于 1/O 〇 多 路 ”输入 事件 ， “描述 符 
复 用 的 并 发 服务 器 会 创建 一 个 新 的 状态 机 从 准备 好 可 以 读 了 ， 
s:， 并 将 它 和 已 连接 描述 符 di 联系 起 来 。 如 


转移 :， “从 描述 符 
d. 读 一 个 文本 行 ” 










12-7 示 ， 每 个 状态 一 个 状态 状态 : “等 待 描述 符 
图 所 示 ， 每 个 状态 机 % 都 有 一 个 状 4 准备 好 可 读 " 


(“等 待 描述 符 d, 准 备 好 可 读 ”)、 一 个 输入 事 
件 (“ 描 述 符 di 准备 好 可 以 读 了 ”) 和 一 个 转移 
(“从 描述 符 di 读 一 个 文本 行 ”)。 图 12-7 ”并 发 事件 驱动 echo 服务 器 中 逻辑 流 的 状态 机 

服务 器 使 用 I/O 多 路 复 用 ， 借 助 select 函数 检测 输入 事件 的 发 生 。 当 每 个 已 连接 描 
述 符 准备 好 可 读 时 ， 服 务 器 就 为 相应 的 状态 机 执行 转移 ， 在 这 里 就 是 从 描述 符 读 和 写 回 一 
个 文本 行 。 

图 12-8 展示 了 一 个 基于 I/O 多 路 复 用 的 并 发 事件 驱动 服务 器 的 完整 示例 代码 。 一 个 
pool 结构 里 维护 着 活动 客户 端的 集合 (第 3~11 行 )。 在 调用 init_pool 初始 化 池 ( 第 27 
行 ) 之 后 ， 服 务 器 进入 一 个 无 限 循环 。 在 循环 的 每 次 迭代 中 ， 服 务 器 调用 select 函数 来 
检测 两 种 不 同类 型 的 输入 事件 : a) 来 自 一 个 新 客户 端的 连接 请 求 到 达 ，b) 一 个 已 存在 的 客 
户 端的 已 连接 描述 符 准备 好 可 以 读 了 。 当 一 个 连接 请 求 到 达 时 (第 35 行 )， 服 务 器 打开 连 
接 ( 第 37 行 )， 并 调用 add_client 函数 ， 将 该 客户 端 添 加 到 池 里 (第 38 行 )。 最 后 ， 服 务 
器 调用 check_clients 函数 ， 把 来 自 每 个 准备 好 的 已 连接 描述 符 的 一 个 文本 行 回 送 回 去 
(第 42 行 )。 


code/conc/echoservers.c 
| #include "csapp.h" 
2 
3 typedef struct { /* Represents a pool of connected descriptors */ 
4 int maxfd; /* Largest descriptor in read_set */ 
5 fd_set read_set; /* Set of all active descriptors */ 
6 fd_set ready_set; /* Subset of descriptors ready for reading */ 
7 int nready; /* Number of ready descriptors from select */ 
8 int maxi; /* High water index into client array */ 
9 int clientfd[FD_SETSIZE] ; /* Set of active descriptors */ 
10 rio_t clientrio[FD_SETSIZE]; /* Set of active read buffers */ 
1 } pool; 
1] 过 
j3 int byte_cnt = 0; /* Counts total bytes received by server */ 
14 
15 int main(int argc, char **argv) 
I 区 
17 int listenfd, connfd; 
18 socklen_t clientlen; 
19 struct sockaddr_storage clientaddr; 


图 12-8 ”基于 I/O 多 路 复 用 的 并 发 echo 服务 器 。 每 次 服务 器 迭代 
都 回 送 来 自 每 个 准备 好 的 描述 符 的 文本 行 
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static pool pool; 


if (argc != 2) { 


fprintf(stderr, "usage: %s <port>\n", argv[0]); 
exit (0); 


listenfd = Open_listenfd(argv [1]); 
init_pool(listenfd, &pool); 


while (1) { 


/* Wait for listening/connected descriptor(s) to become ready */ 
pool.ready_set = pool.read_set; 
pool.nready = Select(pool.maxfd+1, &pool.ready._set, NULL, NULL, NULL); 


/* If listening descriptor ready, add new client to pool */ 
if (FD_ISSET(listenfd, &pool.ready_set)) { 
clientlen = sizeof(struct sockaddr_storage); 
connfd = Accept (listenfd, (SA *)&clientaddr, &clientlen); 
add_client (connfd, &pool); 


/* Echo a text line from each ready connected descriptor */ 
check_clients(&pool) ; 


code/conc/echoservers.c 


图 12-8 〈( 续 ) 


init_pool 函数 (图 12-9) 初 始 化 客户 端 池 。clientfd 数组 表示 已 连接 描述 符 的 集 
合 ， 其 中 整数 一 1 表示 一 个 可 用 的 槽 位 。 初 始 时 ， 已 连接 描述 符 集 合 是 空 的 (第 5 一 7 行 )， 
而 且 监听 描述 符 是 select 读 集合 中 唯一 的 描述 符 ( 第 10 一 12 行 ) 。 


code/conc/echoservers.c 

void init_pool(int listenfd, pool *p) 
t 

/* Initially, there are no connected descriptors */ 

int i; 

p->maxi = -1; 

for (i=0; i< FD_SETSIZE; i++) 

p->clientfd[i] = -1; 


/* Initially, listenfd is only member of select read set */ 
P->maxfd = listenfd; 

FD_ZERO(&p->read_set) ; 

FD_SET(listenfd, &p->read_set); 


code/conc/echoservers.c 


图 12-9 init pool 初始 化 活动 客户 端 池 


add_client 函数 (图 12-10) 添 加 一 个 新 的 客户 端 到 活动 客户 端 池 中 。 在 clientfd 
数组 中 找到 一 个 空 构 位 后 ， 服 务 器 将 这 个 已 连接 描述 符 添 加 到 数组 中 ， 并 初始 化 相应 的 
RIO 读 缓冲 区 ， 这 样 一 来 我 们 就 能 够 对 这 个 描述 符 调用 rio_readlineb( 第 8 一 9 行 )。 然 
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后 ， 我 们 将 这 个 已 连接 描述 符 添加 到 select 读 集 合 ( 第 12 行 )， 并 更 新 该 池 的 一 些 全 局 属 
性 。maxfd 变量 (第 15 一 16 行 ) 记 录 了 select 的 最 大 文件 描述 符 。maxi 变量 (第 17 一 18 
行 ) 记 录 的 是 到 clientfqd 数组 的 最 大 索引 ， 这 样 check_clients 函数 就 无 需 搜索 整 个 数 
组 了 。 

code/conc/echoservers.c 


void add_client(int connfd, pool *p) 


1 

妆 蕊 

3 int 1 

4 p->nready-—-; 

5 for (i = 0; i < FD_SETSIZE; i++) /* Find an available slot */ 
6 if (p->clientfd[i] < 0) { 

/* Add connected descriptor to the pool */ 

8 p->clientfd[i] = connfd; 

9 Rio_readinitb(&p->clientrio[i], connfd); 

10 

i! /* Add the descriptor to descriptor set */ 

12 FD_SET(connfd, &p->read_set); 

13 

14 /* Update max descriptor and pool high water mark */ 
15 if (connfd > p->maxfd) 

16 p->maxfd = connfd; 

17 i (i & Snaxi) 

18 p->maxi = i; 

19 break; 

20 } 

21 if (i == FD_SETSIZE) /* Couldn't find an empty slot */ 
22 app_error("add_client error: Too many clients") ; 
7 


code/conc/echoservers.c 


图 12-10 ”adq_client 向 池 中 添加 一 个 新 的 客户 端 连接 


图 12-11 中 的 check_clients 函数 回 送 来 自 每 个 准备 好 的 已 连接 描述 符 的 一 个 文本 行 。 
如 果 成 功 地 从 描述 符 读 取 了 一 个 文本 行 ， 那 么 就 将 该 文本 行 回 送 到 客户 端 (第 15 一 18 行 )。 
注意 ， 在 第 15 行 我 们 维护 着 一 个 从 所 有 客户 端 接收 到 的 全 部 字 节 的 累计 值 。 如 果 因 为 客 
户 端 关闭 这 个 连接 中 它 的 那 一 端 ， 检 测 到 EOF， 那 么 将 关闭 这 边 的 连接 端 ( 第 23 行 )， 并 
从 池 中 清除 掉 这 个 描述 符 ( 第 24 一 25 行 )。 

根据 图 12-7 中 的 有 限 状态 模型 ，select 函数 检测 到 输入 事件 ， 而 add_client 函数 
创建 一 个 新 的 有 逻辑 流 ( 状 态 机 )。check clients 函数 回 送 输入 行 ， 从 而 执行 状态 转移 ， 
而 且 当 客户 端 完成 文本 行 发 送 时 ， 它 还 要 删除 这 个 状态 机 。 
记 对 练习 题 12.4 图 12-8 所 示 的 服务 器 中 ， 我 们 在 每 次 调用 select 之 前 都 立即 小 心地 

重新 初始 化 pool.ready _ set 变量。 为 什么 ? 


区 要 事件 驱动 的 Web 服务 器 

尽管 有 12. 2.2 节 中 说 明 的 缺点 ， 现 代 高 性 能 服务 器 (例如 Node.js、nginx 和 Tor- 
nado) 使 用 的 都 是 基于 I/O 〇 多 路 复 用 的 事件 驱动 的 编程 方式 ， 主 要 是 因为 相 比 于 进程 和 
线程 的 方式 ， 它 有 明显 的 性 能 优势 。 
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code/conc/echoservers.c 
1 void check_clients(pool *p) 
2 
a int i, connfd, n; 
4 char buf [MAXLINE] ; 
和 OO_ 东 1D5 
6 
党 for (i = 0; (i <= p->maxi) && (p->nready > 0); i++) 荆 
8 connfd = p->clientfd[i]; 
9 rio = p->clientrio[i]; 
10 
i /* If the descriptor is ready, echo a text line from it */ 
较 if ((connfd > 0) && (FD_ISSET(connfd, &p->ready.set))) { 
a p->nready--; 
14 if ((n = Rio_readlineb(&rio, buf, MAXLINE)) != 0) { 
15 byte_cnt += 卫 ; 
16 Printf("Server received %d (%d total) bytes on fd %d\n", 
17 n, byte_cnt, connfd); 
18 Rio_writen(connfd, buf, n); 
19 } 
20 
21 /* EOF detected, remove descriptor from pool */ 
22 else { 
23 Close(connfd) ; 
24 FD_CLR(connfd, &p->read_set); 
25 p->clientfd[i] = -1; 
26 上 
并 } 
28 } 
29 } 


code/conc/echoservers.c 


图 12-11 check_clients 服务 准备 好 的 客户 端 连接 


12.2.2 MO 多 路 复 用 技术 的 优 劣 


图 12-8 中 的 服务 器 提供 了 一 个 很 好 的 基于 I/O 多 路 复 用 的 事件 驱动 编程 的 优 缺 点 示 
例 。 事 件 驱动 设计 的 一 个 优点 是 ， 它 比 基 于 进程 的 设计 给 了 程序 员 更 多 的 对 程序 行为 的 控 
制 。 例 如 ， 我 们 可 以 设想 编写 一 个 事件 驱动 的 并 发 服务 器 ， 为 某 些 客户 端 提供 它们 需要 的 
服务 ， 而 这 对 于 基于 进程 的 并 发 服务 器 来 说 ， 是 很 困难 的 。 

另 一 个 优点 是 ， 一 个 基于 I/O 多 路 复 用 的 事件 驱动 服务 器 是 运行 在 单一 进程 上 下 文中 
的 ， 因 此 每 个 逻辑 流 都 能 访问 该 进程 的 全 部 地 址 空间 。 这 使 得 在 流 之 间 共 享 数据 变 得 很 容 
易 。 一 个 与 作为 单个 进程 运行 相关 的 优点 是 ， 你 可 以 利用 熟悉 的 调试 工具 ， 例 如 GDB， 
来 调试 你 的 并 发 服务 器 ， 就 像 对 顺序 程序 那样 。 最 后 ， 事 件 驱 动 设 计 常 常 比 基 于 进程 的 设 
计 要 高 效 得 多 ， 因 为 它们 不 需要 进程 上 下 文 切 换 来 调度 新 的 流 。 

事件 驱动 设计 一 个 明显 的 缺点 就 是 编码 复杂 。 我 们 的 事件 驱动 的 并 发 echo 服务 器 需要 的 
代码 比 基 于 进程 的 服务 器 多 三 倍 ， 并 且 很 不 幸 ， 随 着 并 发 粒度 的 减 小 ， 复 杂 性 还 会 上 升 。 这 
里 的 粒度 是 指 每 个 逻辑 流 每 个 时 间 片 执行 的 指令 数量 。 例 如 ， 在 示例 并 发 服务 器 中 ， 并 发 粒 
度 就 是 读 一 个 完整 的 文本 行 所 需要 的 指令 数量 。 只 要 某 个 逻辑 流 正 忙于 读 一 个 文本 行 ， 其 他 
逻辑 流 就 不 可 能 有 进展 。 对 我 们 的 例子 来 说 这 没有 问题 ,但 是 它 使 得 在 “故意 只 发 送 部 分 文 
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本 行 然 后 就 停止 ”的 恶意 客户 端的 攻击 面前 ， 我 们 的 事件 驱动 服务 器 显得 很 脆弱 。 修 改 事件 
驱动 服务 器 来 处 理 部 分 文本 行 不 是 一 个 简单 的 任务 ， 但 是 基于 进程 的 设计 却 能 处 理 得 很 好 ， 
而 且 是 自动 处 理 的。 基于 事件 的 设计 另 一 个 重要 的 缺点 是 它们 不 能 充分 利用 多 核 处 理 器 。 


12.3 基于 线程 的 并 发 编程 

到 目前 为 止 ， 我 们 已 经 看 到 了 两 种 创建 并 发 逻辑 流 的 方法 。 在 第 一 种 方法 中 ， 我 们 为 
每 个 流 使 用 了 单独 的 进程 。 内 核 会 自动 调度 每 个 进程 ， 而 每 个 进程 有 它 自 己 的 私有 地 址 空 
间 ， 这 使 得 流 共享 数据 很 困难 。 在 第 二 种 方法 中 ， 我 们 创建 自己 的 逻辑 流 ， 并 利用 I/O 多 
路 复 用 来 显 式 地 调度 流 。 因 为 只 有 一 个 进程 ， 所 有 的 流 共享 整个 地 址 空间 。 本 节 介 绍 第 三 
种 方法 一 一 基于 线程 ， 它 是 这 两 种 方法 的 混合 。 

线程 (thread) 就 是 运行 在 进程 上 下 文中 的 逻辑 流 。 在 本 书 里 迄今 为 止 ， 程 序 都 是 由 每 
个 进程 中 一 个 线程 组 成 的 。 但 是 现代 系统 也 允许 我 们 编写 一 个 进程 里 同时 运行 多 个 线程 的 
程序 。 线 程 由 内 核 自动 调度 。 每 个 线程 都 有 它 自己 的 线程 上 下 文 (thread context)， 包 括 一 
个 唯一 的 整数 线程 ID(Thread ID，TID)、 栈 、 栈 指针 、 程 序 计 数 器 、 通 用 目的 寄存 器 和 
条 件 码 。 所 有 的 运行 在 一 个 进程 里 的 线程 共享 该 进程 的 整个 虚拟 地 址 空间 。 

基于 线程 的 逻辑 流 结合 了 基于 进程 和 基于 1/O 〇 多 路 复 用 的 流 的 特性 。 同 进程 一 样 ， 线 
程 由 内 核 自动 调度 ， 并 且 内 核 通过 一 个 整数 ID 来 识别 线程 。 同 基于 I/O 多 路 复 用 的 流 一 
样 ， 多 个 线程 运行 在 单一 进程 的 上 下 文中 ， 因 此 共享 这 个 进程 虚拟 地 址 空间 的 所 有 内 容 ， 
包括 它 的 代码 、 数 据 、 堆 、 共 享 库 和 打开 的 文件 。 
12. 3. 1 线程 执行 模型 下 

多 线程 的 执行 模型 在 某 些 方面 和 多 进 
程 的 执行 模型 是 相似 的 。 思 考 图 12-12 中 的 
示例 。 每 个 进程 开始 生命 周期 时 都 是 单一 
线程 ， 这 个 线程 称 为 主线 程 (main thread) 。 

在 某 一 时 刻 ， 主 线程 创建 一 个 对 等 线程 
(peer thread)， 从 这 个 时 间 点 开始 ， 两 个 线 
程 就 并 发 地 运行 。 最 后 ， 因 为 主线 程 执行 
一 个 慢 速 系统 调用 ,例如 read 或 者 
sleep， 或 者 因为 被 系统 的 间隔 计时 器 中 
断 ， 控 制 就 会 通过 上 下 文 切 换 传递 到 对 等 图 12-12 ”并 发 线程 执行 
线程 。 对 等 线程 会 执行 一 段 时 间 ， 然 后 控制 传递 回 主线 程 ， 依 次 类 推 。 

在 一 些 重要 的 方面 ， 线 程 执行 是 不 同 于 进程 的 。 因 为 一 个 线程 的 上 下 文 要 比 一 个 进程 
的 上 下 文 小 得 多 ， 线 程 的 上 下 文 切换 要 比 进 程 的 上 下 文 切 换 快 得 多 。 另 一 个 不 同 就 是 线程 
不 像 进 程 那样 ， 不 是 按照 严格 的 父子 层次 来 组 织 的 。 和 一 个 进程 相关 的 线程 组 成 一 个 对 等 
(线程 ) 池 ， 独 立 于 其 他 线程 创建 的 线程 。 主 线程 和 其 他 线程 的 区 别 仅 在 于 它 总 是 进程 中 第 
一 个 运行 的 线程 。 对 等 (线程 ) 池 概念 的 主要 影响 是 ， 一 个 线程 可 以 杀 死 它 的 任何 对 等 线 
程 ， 或 者 等 待 它 的 任意 对 等 线程 终止 。 另 外 ， 每 个 对 等 线程 都 能 读 写 相 同 的 共享 数据 。 


》 线程 上 下 文 切换 


}》 线程 上 下 文 切换 


】 线程 上 下 文 切 换 





12. 3. 2 ”Posix 线程 
Posix 线程 (Pthreads) 是 在 C 程序 中 处 理 线程 的 一 个 标准 接口 。 它 最 早出 现在 1995 
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年 ， 而 且 在 所 有 的 Linux 系统 上 都 可 用 。Pthreads 定义 了 大 约 60 个 函数 ， 人 允许 程序 创建 、 
杀 死 和 回收 线程 ， 与 对 等 线程 安全 地 共享 数据 ， 还 可 以 通知 对 等 线程 系统 状态 的 变化 。 

图 12-13 展示 了 一 个 简单 的 Pthreads 程序 。 主 线程 创建 一 个 对 等 线程 ， 然 后 等 待 它 的 
终止 。 对 等 线程 输出 “Hello, world! \n” 并 且 终 止 。 当 主线 程 检测 到 对 等 线程 终止 后 ， 
它 就 通过 调用 exit 终止 该 进程 。 这 是 我 们 看 到 的 第 一 个 线程 化 的 程序 ， 所 以 让 我 们 仔细 
地 解析 它 。 线 程 的 代码 和 本 地 数据 被 封装 在 一 个 线程 例 程 (thread routine) 中 。 正 如 第 二 行 
里 的 原型 所 示 ， 每 个 线程 例 程 都 以 一 个 通用 指针 作为 输入 ， 并 返回 一 个 通用 指针 。 如 果 想 
传递 多 个 参数 给 线程 例 程 ， 那 么 你 应 该 将 参数 放 到 一 个 结构 中 ， 并 传递 一 个 指向 该 结构 的 
指针 。 相 似 地 ， 如 果 想 要 线程 例 程 返回 多 个 参数 ， 你 可 以 返回 一 个 指向 一 个 结构 的 指针 。 


code/conc/hello.c 
1 #include "csapp.h" 
2 void *thread(void *vargp); 
3 
4 int main() 
5 -六 
6 pthread_t tid; 
4 Pthread_create(&tid, NULL, thread, NULL); 
8 Pthread_join(tid, NULL); 
9 exit (0); 
10 ba 
11 
12 void *thread(void *vargp) /* Thread routine */ 
风 ”六 
14 printf ("Hello, world!\n"); 
15 return NULL ; 
16 } 
code/conc/hello.c 


图 12-13 hello.c: 使 用 Pthreads 的 “Hello，world!” 程 序 


第 4 行 标 出 了 主线 程 代码 的 开始 。 主 线程 声明 了 一 个 本 地 变量 tid， 可 以 用 来 存放 对 
等 线程 的 ID( 第 6 行 )。 主 线程 通过 调用 pthread create 函数 创建 一 个 新 的 对 等 线程 (第 
7 行 )。 当 对 pthread_create 的 调用 返回 时 ， 主 线程 和 新 创建 的 对 等 线程 同时 运行 ， 并 
且 tid 包 含 新 线程 的 ID。 通 过 在 第 8 行 调用 pthread join， 主 线程 等 待 对 等 线程 终止 。 
最 后 ， 主 线程 调用 exit( 第 9 行 )， 终 止 当 时 运行 在 这 个 进程 中 的 所 有 线程 (在 这 个 示例 中 
就 只 有 主线 程 ) 。 

第 12 一 16 行 定 义 了 对 等 线程 的 例 程 。 它 只 打印 一 个 字符 串 ， 然 后 就 通过 执行 第 15 行 
中 的 return 语句 来 终止 对 等 线程 。 


12. 3.3 创建 线程 
线程 通过 调用 pthread create 函数 来 创建 其 他 线程 。 








#include <pthread.h> 
typedef void *(func) (void *); 


int pthread_create(pthread_t *tid, pthread_attr_t *attr, 
func *f, void *arg); 
若 成 功 则 返回 0， 若 出 错 则 为 非 零 。 
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pthread_create 函数 创建 一 个 新 的 线程 ， 并 带 着 一 个 输入 变量 arg， 在 新 线程 的 上 
下 文中 运行 线程 例 程 E。 能 用 attr 参数 来 改变 新 创建 线程 的 默认 属性 。 改 变 这 些 属性 已 
超出 我 们 学 习 的 范围 ， 在 我 们 的 示例 中 ， 总 是 用 一 个 为 NULL 的 attr 参数 来 调用 
pthread create 函数 。 

当 pthread create 返回 时 ， 参数 tid 包含 新 创建 线程 的 ID。 新 线程 可 以 通过 调用 
pthread_self 函数 来 获得 它 自 己 的 线程 ID。 








#include <pthread.h> 


pthread_t pthread_self (void); 
返回 调用 者 的 线程 ID。 








12. 3.4 终止 线程 


一 个 线程 是 以 下 列 方式 之 一 来 终止 的 : 

e 当 顶 层 的 线程 例 程 返 回 时 ， 线 程 会 隐 式 地 终止 。 

@ 通过 调用 pthread exit 函数 ， 线 程 会 显 式 地 终止 。 如 果 主 线程 调用 pthread ex- 
it， 它 会 等 待 所 有 其 他 对 等 线程 终止 ， 然 后 再 终止 主线 程 和 整个 进程 ， 返 回 值 为 


thread _ return。 





#include <pthread.h> 


void pthread_exit(void *thread_return); 





e 某 个 对 等 线程 调用 Linux 的 exit 函数 ， 该 函数 终止 进程 以 及 所 有 与 该 进程 相关 的 


线程 。 
”。 另 一 个 对 等 线程 通过 以 当前 线程 ID 作为 参数 调用 pthread_cancel 函数 来 终止 当 
前 线程 。 











#include <pthread.h> 


int pthread_cancel (pthread_t tid) ; 
车 成 功 则 返回 0， 若 出 错 则 为 非 零 。 








12.3.5 回收 已 终止 线程 的 资源 
线程 通过 调用 pthread join 函数 等 待 其 他 线程 终止 。 





#include <pthread.h> 


int pthread_join(pthread t tid, void **thread._return); 
若 成 功 则 返回 0， 若 出 错 则 为 非 零 。 








pthread join 函数 会 阻塞 ， 直 到 线程 tid 终止 ， 将 线程 例 程 返回 的 通用 (void* ) 指 
针 赋 值 为 thread_return 指向 的 位 置 ， 然 后 回收 已 终止 线程 占用 的 所 有 内 存 资源 。 

注意 ， 和 Linux 的 wait 函数 不 同 ，pthread _ join 了 肾 数 只 能 等 待 一 个 指定 的 线程 终 
止 。 没 有 办 法 让 pthread wait 等 待 任意 一 个 线程 终止 。 这 使 得 代码 更 加 复杂 ， 因 为 它 迫 
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使 我 们 去 使 用 其 他 一 些 不 那么 直观 的 机 制 来 检测 进程 的 终止 。 实 际 上 ，Stevens 在 [110] 中 
就 很 有 说 服 力 地 论证 了 这 是 规范 中 的 一 个 错误 。 


12. 3.6 分 离线 程 


在 任何 一 个 时 间 点 上 ， 线 程 是 可 结合 的 (joinable) 或 者 是 分 离 的 (detached)。 一 个 可 结 
合 的 线程 能 够 被 其 他 线程 收回 和 杀 死 。 在 被 其 他 线程 回收 之 前 ， 它 的 内 存 资源 (例如 栈 ) 是 
不 释放 的 。 相 反 ， 一 个 分 离 的 线程 是 不 能 被 其 他 线程 回收 或 杀 死 的 。 它 的 内 存 资源 在 它 终 
止 时 由 系统 自动 释放 。 

默认 情况 下 ， 线 程 被 创建 成 可 结合 的 。 为 了 避免 内 存 泄 漏 ， 每 个 可 结合 线程 都 应 该 要 
么 被 其 他 线程 显 式 地 收回 ， 要 么 通过 调用 pthread detach 函数 被 分 离 。 








#include <pthread.h> 


int pthread_detach(pthread_t tid); 
若 成 功 则 返回 0， 车 出 错 则 为 非 零 。 








pthread detach 函数 分 离 可 结合 线程 tid。 线 程 能 够 通过 以 pthread self () 为 参 
数 的 pthread_detach 调用 来 分 离 它们 自己 。 

尽管 我 们 的 一 些 例子 会 使 用 可 结合 线程 ， 但 是 在 现实 程序 中 ， 有 很 好 的 理由 要 使 用 分 
离 的 线程 。 例 如 ， 一 个 高 性 能 Web 服务 器 可 能 在 每 次 收 到 Web 浏览 器 的 连接 请 求 时 都 创 
建 一 个 新 的 对 等 线程 。 因 为 每 个 连接 都 是 由 一 个 单独 的 线程 独立 处 理 的 ， 所 以 对 于 服务 器 
而 言 ， 就 很 没有 必要 (实际 上 也 不 愿意 ) 显 式 地 等 待 每 个 对 等 线程 终止 。 在 这 种 情况 下 ， 每 
个 对 等 线程 都 应 该 在 它 开始 处 理 请 求 之 前 分 离 它 自身 ， 这 样 就 能 在 它 终 止 后 回收 它 的 内 存 
资源 了 。 


12.3.7 初始 化 线程 
pthread_once 函数 允许 你 初始 化 与 线程 例 程 相关 的 状态 。 





#include <pthread.h> 
Pthread_once_t once_control = PTHREAD_ONCE_INIT; 


int pthread_once(pthread_once_t *once_control, 
void (*init_routine) (void)); 





总 是 返回 0。 











once_control 变量 是 一 个 全 局 或 者 静态 变量 ， 总 是 被 初始 化 为 PTHREAD_ONCE_ 
INIT。 当 你 第 一 次 用 参数 once_control 调用 pthread_once 时 ， 它 调用 init rou- 
tine， 这 是 一 个 没有 输入 参数 、 也 不 返回 什么 的 函数 。 接 下 来 的 以 once_control 为 参数 
的 pthread_once 调用 不 做 任何 事情 。 无 论 何 时 ， 当 你 需要 动态 初始 化 多 个 线程 共享 的 全 
局 变量 时 ，pthreaqd_once 函数 是 很 有 用 的 。 我 们 将 在 12. 5. 5 节 里 看 到 一 个 示例 。 


12. 3.8 基于 线程 的 并 发 服务 器 


图 12-14 展示 了 基于 线程 的 并 发 echo 服务 器 的 代码 。 整 体 结构 类 似 于 基于 进程 的 设 
计 。 主 线程 不 断 地 等 待 连接 请 求 ， 然 后 创建 一 个 对 等 线程 处 理 该 请 求 。 昌 然 代 码 看 似 简 
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单 ， 但 是 有 几 个 普遍 而 且 有 些微 妙 的 问题 需要 我 们 更 仔细 地 看 一 看 。 第 一 个 问题 是 当 我 们 
调用 pthread_create 时 ， 如 何 将 已 连接 描述 符 传 递 给 对 等 线程 。 最 明显 的 方法 就 是 传递 
一 个 指向 这 个 描述 符 的 指针 ， 就 像 下 面 这 样 


connfd = Accept (listenfd, (SA *) &clientaddr, &clientlen); 
Pthread_create(&tid, NULL, thread, &connfd); 


然后 ， 我 们 让 对 等 线程 间接 引用 这 个 指针 ， 并 将 它 赋值 给 一 个 局 部 变量 ， 如 下 所 示 


void *thread(void *vargp) { 
int connfd = *((int *)vargp); 


code/conc/echoservert.c 


U #include "csapp.h" 

过 

3 void echo(int connfd) ; 

4 void *thread(void *vargp); 

§ 

6 int main(int argc, char **argv) 

{ 

8 int listenfd, *connfdp; 

9 socklen_t clientlen; 

10 struct sockaddr_storage clientaddr; 

币 pthread_t tid; 

地 

13 if (argc != 2) { 

14 fprintf (stderr, "usage: %s <port>\n", argv[0]); 
15 exit (0); 

16 } 

17 listenfd = Open_listenfd(argv[1]); 

18” 

19 while (1) { 

20 clientlen=sizeof(struct sockaddr_storage); 
21 connfdp = Malloc(sizeof (int)); 

22 *connfdp = Accept (listenfd, (SA *) &clientaddr, &clientlen); 
23 Pthread_create(&tid, NULL, thread, connfdp); 
24 } 

站 省 

26 


27 /* Thread routine */ 
28 void *thread(void *vargp) 


29 并 

30 int connfd = *((int *)vargp); 
31 Pthread_detach (pthread_self ()); 
32 Free(vargp) ; 

33 echo(connfd) ; 

34 Close(connfd) ; 

35 return NULL; 

36 } 


code/conc/echoservert.c 


图 12-14 ”基于 线程 的 并 发 echo 服务 器 
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然而 ， 这 样 可 能 会 出 错 ， 因 为 它 在 对 等 线程 的 赋值 语句 和 主线 程 的 accept 语句 间 引 人 了 
竞争 (race)。 如 果 赋 值 语句 在 下 一 个 accept 之 前 完成 ,那么 对 等 线程 中 的 局 部 变量 
connfd 就 得 到 正确 的 描述 符 值 。 然 而 ， 如 果 赋 值 语 句 是 在 accept 之 后 才 完 成 的 ， 那 么 对 
等 线程 中 的 局 部 变量 connfd 就 得 到 下 一 次 连接 的 描述 符 值 。 那 么 不 幸 的 结果 就 是 ， 现 在 
两 个 线程 在 同一 个 描述 符 上 执行 输入 和 输出 。 为 了 避免 这 种 潜在 的 致命 竞争 ， 我 们 必须 将 
accept 返回 的 每 个 已 连接 描述 符 分 配 到 它 自己 的 动态 分 配 的 内 存 块 ， 如 第 20 一 21 行 所 
示 。 我 们 会 在 12.7.4 节 中 回 过 来 讨论 竞争 的 问题 。 

另 一 个 问题 是 在 线程 例 程 中 避免 内 存 泄 漏 。 既 然 不 显 式 地 收回 线程 ， 就 必须 分 离 每 个 
线程 ， 使 得 在 它 终止 时 它 的 内 存 资源 能 够 被 收回 (第 31 行 )。 更 进一步 ， 我 们 必须 小 心 释 
放 主 线程 分 配 的 内 存 块 (第 32 行 ) 。 

医 S 江 练习 题 12. 5 在 图 12-5 中 基于 进程 的 服务 器 中 ， 我 们 在 两 个 位 置 小 心地 关闭 了 已 连 

接 描述 符 : 父 进 程 和 子 进程 。 然 而 ， 在 图 12-14 中 基于 线程 的 服务 器 中 ， 我 们 只 在 一 

个 位 置 关闭 了 已 连接 描述 符 : 对 等 线程 。 为 什么 ? 


12.4 多 线程 程序 中 的 共享 变量 


从 程序 员 的 角度 来 看 ， 线 程 很 有 吸引 力 的 一 个 方面 是 多 个 线程 很 容易 共享 相同 的 程序 
变量 。 然 而 ， 这 种 共享 也 是 很 杯 手 的 。 为 了 编写 正确 的 多 线程 程序 ， 我 们 必须 对 所 谓 的 共 
享 以 及 它 是 如 何 工作 的 有 很 清楚 的 了 解 。 

为 了 理解 C 程序 中 的 一 个 变量 是 否 是 共享 的 ， 有 一 些 基本 的 问题 要 解答 : 1) 线程 的 基 
础 内 存 模型 是 什么 ?2) 根据 这 个 模型 ， 变 量 实 例 是 如 何 映射 到 内 存 的 ? 3) 最 后 ， 有 多 少 线 
程 引用 这 些 实例 ? 一 个 变量 是 共享 的 ， 当 且 仅 当 多 个 线程 引用 这 个 变量 的 某 个 实例 。 

为 了 让 我 们 对 共享 的 讨论 具体 化 ， 我 们 将 使 用 图 12-15 中 的 程序 作为 运行 示例 。 尽 管 
有 些 人 为 的 痕迹 ,但 是 它 仍然 值得 研究 ， 因 为 它 说 明了 关于 共享 的 许多 细微 之 处 。 示 例 程 
序 由 一 个 创建 了 两 个 对 等 线程 的 主线 程 组 成 。 主 线程 传递 一 个 唯一 的 ID 给 每 个 对 等 线程 ， 
每 个 对 等 线程 利用 这 个 ID 输出 一 条 个 性 化 的 信息 ， 以 及 调用 该 线程 例 程 的 总 次 数 。 





12. 4. 1 线程 内 存 模型 


一 组 并 发 线程 运行 在 一 个 进程 的 上 下 文中 。 每 个 线程 都 有 它 自己 独立 的 线程 上 下 文 ， 
包括 线程 ID、 栈 、 栈 指针 、 程 序 计 数 器 、 条 件 码 和 通用 目的 寄存 器 值 。 每 个 线程 和 其 他 
线程 一 起 共享 进程 上 下 文 的 剩余 部 分 。 这 包括 整个 用 户 虚拟 地 址 空间 ， 它 是 由 只 读 文本 
(代码 )、 读 / 写 数 据 、 堆 以 及 所 有 的 共享 库 代码 和 数据 区 域 组 成 的 。 线 程 也 共享 相同 的 打 
开 文 件 的 集合 。 

从 实际 操作 的 角度 来 说 ， 让 一 个 线程 去 读 或 写 男 一 个 线程 的 寄存 器 值 是 不 可 能 的 。 另 
一 方面 ， 任 何 线程 都 可 以 访问 共享 虚拟 内 存 的 任意 位 置 。 如 果 某 个 线程 修改 了 一 个 内 存 位 
置 ， 那 么 其 他 每 个 线程 最 终 都 能 在 它 读 这 个 位 置 时 发 现 这 个 变化 。 因 此 ， 寄 存 器 是 从 不 共 
享 的 ， 而 虚拟 内 存 总 是 共享 的 。 

各 自 独立 的 线程 栈 的 内 存 模型 不 是 那么 整齐 清楚 的 。 这 些 栈 被 保存 在 虚拟 地 址 空间 的 
栈 区 域 中 ， 并 且 通 常 是 被 相应 的 线程 独立 地 访问 的 。 我 们 说 通常 而 不 是 总 是 ， 是 因为 不 同 
的 线程 栈 是 不 对 其 他 线程 设防 的 。 所 以 ， 如 果 一 个 线程 以 某 种 方式 得 到 一 个 指向 其 他 线程 
栈 的 指针 ， 那 么 它 就 可 以 读 写 这 个 栈 的 任何 部 分 。 示 例 程序 在 第 26 行 展 示 了 这 一 点 ， 其 
中 对 等 线程 直接 通过 全 局 变量 ptr 间接 引用 主线 程 的 栈 的 内 容 。 
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code/conc/sharing.c 
1 #include "csapp.h" 
多 #define N 2 
3 void *thread(void *vargp); 
4 
5 char **ptr; /* Global variable */ 
6 
7 int main() 
8 + 
9 Ti I 
10 pthread_t tid; 
11 char *msgs[N] = { 
但 "Hello from foo" ， 
13 "Hello from bar" 
14 se 
13 
16 ptr = msgs; 
17 for (i = 0; i < N; i++) 
18 Pthread_create(&tid, NULL, thread, (void *)i); 
19 Pthread_exit (NULL); 
20 } 
1 
22 void *thread(void *vargp) 
23 { 
24 int myid = (int)vargp; 
25 static int cnt = 0; 
26 printf("[%d]: %s (cnt=%d)\n", myid, ptr[myid], ++cnt); 
27 return NULL; 
28 } 
code/conc/sharing.c 


图 12-15 ”说 明 共享 不 同方 面 的 示例 程序 


12. 4.2 将 变量 映射 到 内 存 
多 线程 的 C 程序 中 变量 根据 它们 的 存储 类 型 被 映射 到 虚拟 内 存 : 


全 局 变量 。 全 局 变量 是 定义 在 函数 之 外 的 变量 。 在 运行 时 ， 虚 拟 内 存 的 读 / 写 区 域 
只 包含 每 个 全 局 变量 的 一 个 实例 ， 任 何 线程 都 可 以 引用 。 例 如 ， 第 5 行 声 明 的 全 局 
变量 ptr 在 虚拟 内 存 的 读 / 写 区 域 中 有 一 个 运行 时 实例 。 当 一 个 变量 只 有 一 个 实例 
时 ， 我 们 只 用 变量 名 (在 这 里 就 是 ptr) 来 表示 这 个 实例 。 

本 地 自动 变量 。 本 地 自动 变量 就 是 定义 在 函数 内 部 但 是 没有 static 属性 的 变量 。 
在 运行 时 ， 每 个 线程 的 栈 都 包含 它 自 己 的 所 有 本 地 自动 变量 的 实例 。 即 使 多 个 线程 
执行 同一 个 线程 例 程 时 也 是 如 此 。 例 如 ， 有 一 个 本 地 变量 tid 的 实例 ， 它 保存 在 主 
线程 的 栈 中 。 我 们 用 tid.m 来 表示 这 个 实例 。 再 来 看 一 个 例子 ， 本 地 变量 myid 有 
两 个 实例 ， 一 个 在 对 等 线程 0 的 栈 内 ， 另 一 个 在 对 等 线程 1 的 栈 内。 我们 将 这 两 个 
实例 分 别 表示 为 myid.p0 和 myid.pl。 

本 地 静态 变量 。 本 地 静态 变量 是 定义 在 函数 内 部 并 有 static 属性 的 变量 。 和 全 局 
变量 一 样 ， 虚 拟 内 存 的 读 / 写 区 域 只 包含 在 程序 中 声明 的 每 个 本 地 静态 变量 的 一 个 
实例 。 例 如 ， 即 使 示例 程序 中 的 每 个 对 等 线程 都 在 第 25 行 声明 了 cnt， 在 运行 时 ， 
虚拟 内 存 的 读 / 写 区 域 中 也 只 有 一 个 cnt 的 实例 。 每 个 对 等 线程 都 读 和 写 这 个 实例 。 
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12. 4.3 ”共享 变量 


我 们 说 一 个 变量 v 是 共享 的 ， 当 且 仅 当 它 的 一 个 实例 被 一 个 以 上 的 线程 引用 。 例 如 ， 
示例 程序 中 的 变量 cnt 就 是 共享 的 ， 因 为 它 只 有 一 个 运行 时 实例 ， 并 且 这 个 实例 被 两 个 对 
等 线程 引用 。 在 另 一 方面 ，myid 不 是 共享 的 ， 因 为 它 的 两 个 实例 中 每 一 个 都 只 被 一 个 线 
程 引 用 。 然 而 ， 认 识 到 像 msgs 这 样 的 本 地 自动 变量 也 能 被 共享 是 很 重要 的 。 
世纪 练习 题 12. 6 

A. 利用 12.4 节 中 的 分 析 ， 为 图 12-15 中 的 示例 程序 在 下 表 的 每 个 条 目 中 填写 “是 ” 

或 者 “ 否 ”。 在 第 一 列 中 ， 符 号 v.t 表示 交 量 v 的 一 个 实例 ， 它 驻 留 在 线程 t 的 本 
地 栈 中 ， 其 中 上 要 么 是 m( 主 线程 )， 要 么 是 p0( 对 等 线程 0) 或 者 p1( 对 等 线程 1)。 


主线 程 引用 的 ? 













对 等 线程 0 引用 的 ? 对 等 线程 1 引用 的 ? 





变量 
| 
Te 
ER > 
TO 
wa | 

Re 


msgs.m 


myid.po 


B. 根据 -A 部 分 的 分 析 ， 变 量 ptr、cnt、i、msgs 和 myid 哪些 是 共享 的 ? 
12.5 用 信号 量 同步 线程 


共享 变量 是 十 分 方便 ， 但 是 它们 也 引入 了 同步 错误 (synchronization error) 的 可 能 性 。 考 
虑 图 12-16 中 的 程序 badcnt.c， 它 创建 了 两 个 线程 ， 每 个 线程 都 对 共享 计数 变量 cnt 加 1。 











code/conc/badcnt.c 

1 /* WARNING: This code is buggy! */ 

2 #include "csapp.h" 

EE 

4 void *thread(void *vargp); /* Thread routine prototype */ 
5 

6 /* Global shared variable */ 

7 volatile long cnt = 0; /* Counter */ 

8 

9 int main(int argc, char **argv) 

各 半 

| long niters; 

二 pthread_t tidi, tid2; 

13 

14 /* Check input argument */ 

询 if (argc != 2) { 

16 printf("usage: %s <niters>\n", argv[0]); 

证 exit (0); 

18 二 

19 niters = atoi(argv[1]); 
20 
21 /* Create threads and wait for them to finish */ 
22 Pthread_create(&tidi, NULL, thread, &niters); 


图 12-16 ”badcnt. c: 一 个 同步 不 正确 的 计数 器 程序 
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23 Pthread_create(&tid2, NULL, thread, &niters); 
24 Pthread_join(tidi, NULL); 

25 Pthread_join(tid2, NULL); 

26 

27 /* Check result */ 

28 if (cnt != (2 * niters)) 

29 printf ("BOOM! cnt=%ld\n", cnt); 
30 else 

31 printf ("OK cnt=%ldNn"，cnt) ; 

32 exit (0); 

33 } 

34 


35  /* Thread routine */ 
36 void *thread(void *vargp) 


37 { 

38 long i, niters = *((long *)vargp); 
39 

40 for (i = 0; i < niters; i++) 

41 cnt++; 

42 

43 return NULL; 

44 } 


code/conc/badcnt.c 


图 12-16 〈( 续 ) 


因为 每 个 线程 都 对 计数 器 增加 了 niters 次 ， 我们 预计 它 的 最 终 值 是 2Xniters。 这 
看 上 去 简单 而 直接 。 然 而 ， 当 在 Linux 系统 上 运行 padcnt .c 时 ， 我 们 不 仅 得 到 错误 的 答 
案 ， 而 且 每 次 得 到 的 答案 都 还 不 相同 ! 

linux> ./badcnt 1000000 

BOOM! cnt=1445085 


+ linux> ./badcnt 1000000 
BOOM! cnt=1915220 


linux> ./badcnt 1000000 

BOOM! cnt=1404746 

那么 哪里 出 错 了 呢 ? 为 了 清晰 地 理解 这 个 问题 ， 我 们 需要 研究 计数 器 循环 (第 40 一 41 
行 ) 的 汇编 代码 ， 如 图 12-17 所 示 。 我 们 发 现 ， 将 线程 i 的 循环 代码 分 解 成 五 个 部 分 是 很 有 
帮助 的 

e HH;: 在 循环 头 部 的 指令 块 。 

e 工 : 加 载 共 享 变量 cnt 到 累加 寄存 器 $rdx; 的 指令 ， 这 里 $rdx; 表 示 线 程 i 中 的 寄存 

器 srdx 的 值 。 

e U;: 更 新 (增加 )%rdx; 的 指令 。 

e S;: 将 rdx; 的 更 新 值 存 回 到 共享 变量 cnt 的 指令 。 

eT;: 循环 尾部 的 指令 块 。 

注意 头 和 尾 只 操作 本 地 栈 变量 ， 而 L;、U; 和 S; 操 作 共 享 计 数 器 变量 的 内 容 。 

当 padcnt.c 中 的 两 个 对 等 线程 在 一 个 单 处 理 器 上 并 发 运行 时 ， 机 器 指令 以 某 种 顺序 
一 个 接 一 个 地 完成 。 因 此 ， 每 个 并 发 执行 定义 了 两 个 线程 中 的 指令 的 某 种 全 序 ( 或 者 交 
叉 ) 。 不 幸 的 是 ， 这 些 顺 序 中 的 一 些 将 会 产生 正确 结果 ， 但 是 其 他 的 则 不 会 。 
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线程 的 汇编 代码 
(Srdi) ,Srex 
TEGO CECR m 
12 六 五: 头 
$0, Seax 
线程 的 C 代 码 1 
for (i=0; i < niters; i++) Cnt (Srip), Srdx LL: 加 载 cnt 
Seax . 
Cnt++; Seax, cnt (S$rip) 以 :更 新 cnt 
4 8 :存储 cnt 
Srcx, Srax > 了 : 尾 





贱 


图 12-17 badcnt.c 中 计数 器 循环 (第 40~41 行 ) 的 汇编 代码 


这 里 有 个 关键 点 ; 一 般 而 言 ， 你 没有 办 法 预测 操作 系统 是 否 将 为 你 的 线程 选择 一 个 正 
确 的 顺序 。 例 如 ， 图 12-18a 展示 了 一 个 正确 的 指令 顺序 的 分 步 操作 。 在 每 个 线程 更 新 了 
共享 变量 cnt 之 后 ， 它 在 内 存 中 的 值 就 是 2， 这 正 是 期 望 的 值 。 

另 一 方面 ， 图 12-18b 的 顺序 产生 一 个 不 正确 的 cnt 的 值 。 会 发 生 这 样 的 问题 是 因为 ， 
线程 2 在 第 5 步 加载 cnt， 是 在 第 2 步 线程 1 加 载 cnt 之 后 ， 而 在 第 6 步 线程 1 存储 它 的 
更 新 值 之 前 。 因 此 ， 每 个 线程 最 终 都 会 存储 一 个 值 为 1 的 更 新 后 的 计数 器 值 。 我 们 能 够 借 
助 于 一 种 叫做 进度 图 (progress graph) 的 方法 来 阐明 这 些 正确 的 和 不 正确 的 指令 顺序 的 概 
念 ， 这 个 图 我 们 将 在 下 一 节 中 介绍 。 





步骤 线程 指令 %rdx! %rdx， cnt 步骤 线程 指令 dxl %rdx。 cnt 


[i 
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a) 正确 的 顺序 b) 不 正确 的 顺序 
图 12-18 badcnt.c 中 第 一 次 循环 迭代 的 指令 顺序 


Pe 练习 题 12.7 根据 padcnt.c 的 指令 顺序 完成 下 表 : 






































这 种 顺序 会 产生 一 个 正确 的 cnt 值 吗 ? 
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12 计 地 属 图 


进度 图 (progress graph) 将 nn 个 并 发 线程 的 执行 模型 化 为 一 条 nn 维 笛 卡 儿 空间 中 的 轨 
迹 线 。 每 条 轴 对 应 于 线程 & 的 进度 。 每 个 点 (I ，I,，…，1) 代 表 线 程 &(k 二 1，…，n) 
已 经 完成 了 指令 到 这 一 状态 。 图 的 原点 对 应 于 没有 任何 线程 完成 一 条 指令 的 初始 状态 。 

图 12-19 展示 了 baqcnt .c 程序 第 一 次 循环 迭代 的 二 维 进 度 图 。 水 平 轴 对 应 于 线程 1， 
垂直 轴 对 应 于 线程 2。 点 (Li，S: ) 对 应 于 线程 1 完成 了 工 ; 而 线程 2 完成 了 S; 的 状态 。 

进度 图 将 指令 执行 模型 化 为 从 一 种 状态 到 另 一 种 状态 的 转换 (transition) 。 转 换 被 表示 
为 一 条 从 一 点 到 相 邻 点 的 有 向 边 。 合 法 的 转换 是 向 右 ( 线 程 1 中 的 一 条 指令 完成 ) 或 者 向 上 
(线程 2 中 的 一 条 指令 完成 ) 的 。 两 条 指令 不 能 在 同一 时 刻 完成 一 一 对 角 线 转换 是 不 允许 
的 。 程 序 决 不 会 反 向 运行 ， 所 以 向 下 或 者 向 左 移动 的 转换 也 是 不 合法 的 。 

一 个 程序 的 执行 历史 被 模型 化 为 状态 空间 中 的 一 条 轨迹 线 。 图 12-20 展示 了 下 面 指令 
顺序 对 应 的 轨迹 线 : 





HH, iw Gia Fas Loin ss i Uss Ss Ta 
线程 2 线程 2 





线程 1 


局 页 z 六 
图 12-19 badcnt.c 第 一 次 循环 迭代 的 进度 图 图 12-20 ”一 个 轨迹 线 示例 


对 于 线程 ;， 操 作 共 享 变量 cnt 内 容 的 指令 (L;，U;，S;) 构 成 了 一 个 (关于 共享 变量 
cnt 的 ) 临 界 区 (critical section) ， 这 个 临界 区 不 应 该 和 其 他 进程 的 临界 区 交替 执行 。 换 句 
话说 ， 我 们 想 要 确保 每 个 线程 在 执行 它 的 临界 区 中 的 指令 时 ， 拥 有 对 共享 变量 的 互 斥 的 访 
问 (mutually exclusive access)。 通 常 这 种 现象 称 为 互 斥 (mutual exclusion) 。 

在 进度 图 中 ， 两 个 临界 区 的 交集 形成 的 状态 空间 区 域 称 为 不 安全 区 (unsafe region)。 
图 12-21 展示 了 变量 cnt 的 不 安全 区 。 注 意 ， 不 安全 区 和 与 它 交界 的 状态 相 毗 邻 ， 但 并 不 
包括 这 些 状态 。 例 如 ， 状 态 ( 互 , ， 万 ) 和 (S ，U2z ) 毗 邻 不 安全 区 ， 但 是 它们 并 不 是 不 安全 
区 的 一 部 分 。 绕 开 不 安全 区 的 轨迹 线 叫做 安全 轨迹 线 (safe trajectory) 。 相 反 ， 接 触 到 任何 
不 安全 区 的 轨迹 线 就 叫做 不 安全 轨迹 线 (unsafe trajectory)。 图 12-21 给 出 了 示例 程序 
badcnt.c 的 状态 空间 中 的 安全 和 不 安全 轨迹 线 。 上 面 的 轨迹 线 绕 开 了 不 安全 区 域 的 左边 
和 和 上边， 所 以 是 安全 的 。 下 面 的 轨迹 线 穿越 不 安全 区 ， 因 此 是 不 安全 的 。 

任何 安全 轨迹 线 都 将 正确 地 更 新 共享 计数 器 。 为 了 保证 线程 化 程序 示例 的 正确 执行 ( 实 
en i de a ome eden tig hi 使 它们 
总 是 有 一 条 安全 轨迹 线 。 一 个 经 典 的 方法 是 基于 信号 量 的 思想 ， 接 下 来 我 们 就 介绍 它 
区 可 练习 题 12. 8 使 用 图 12-21 中 的 进度 图 ， 和 证 线 划分 为 安全 的 或 者 不 安全 的 。 

六 
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线程 2 


写 cnt 的 
临界 区 





OC 
写 cnt 的 临界 区 


图 12-21 安全 和 不 安全 轨迹 线 。 临 界 区 的 交集 形成 了 不 安全 区 。 
绕 开 不 安全 区 的 轨迹 线 能 够 正确 更 新 计数 器 变量 


| 和 呈 2 售 写 县 


Edsger Dijkstra， 并 发 编程 领域 的 先锋 人 物 ， 提 出 了 一 种 经 典 的 解决 同步 不 同 执行 线 
程 问题 的 方法 ， 这 种 方法 是 基于 一 种 叫做 信号 量 (semaphore) 的 特殊 类 型 变量 的 。 信 和 号 量 
是 具有 非 负 整 数值 的 全 局 变量 ， 只 能 由 两 种 特殊 的 操作 来 处 理 ， 这 两 种 操作 称 为 P 和 T， 
e P(s): 如 果 s 是 非 零 的 ， 那么 P 卫 将 s 减 1， 并且 立即 返回 。 如 果 * 为 去， 那么 就 挂 
起 这 个 线程 ， 直 到 s 变 为 非 零 ， 而 一 个 V 操作 会 重启 这 个 线程 。 在 重启 之 后 ，P 操 
作 将 * 减 1， 并 将 控制 返回 给 调用 者 。 

eV(C): V 操 作 将 * 加 1。 如 果 有 任何 线程 阻塞 在 已 操作 等 待 * 变 成 非 零 ， 那 么 V 操 
作 会 重启 这 些 线程 中 的 一 个 ， 然 后 该 线程 将 s 减 1， 完 成 它 的 卫 操作 。 

P 中 的 测试 和 减 1 操作 是 不 可 分 割 的 ， 也 就 是 说 ， 一旦 预测 信号 量 * 变 为 非 零 ， 就 会 
将 * 减 1， 不 能 有 中 断 。VY 中 的 加 1 操作 也 是 不 可 分 割 的 ， 也 就 是 加 载 、 加 1 和 存储 信号 
量 的 过 程 中 没有 中 断 。 注 意 ，V 的 定义 中 没有 定义 等 待 线程 被 重启 动 的 顺序 。 唯 一 的 要 求 
是 V 必须 只 能 重启 一 个 正在 等 待 的 线程 。 因 此 ， 当 有 多 个 线程 在 等 待 同一 个 信号 量 时 ， 你 
不 能 预测 V 操作 要 重启 哪 一 个 线程 。 

P 和 V 的 定义 确保 了 一 个 正在 运行 的 程序 绝 不 可 能 进入 这 样 一 种 状态 ， 也 就 是 一 个 正 
确 初 始 化 了 的 信号 量 有 一 个 负 值 。 这 个 属性 称 为 信号 量 不 变性 (semaphore invariant) ， 为 
控制 并 发 程序 的 轨迹 线 提供 了 强 有 力 的 工具 ， 在 下 一 节 中 我 们 将 看 到 。 

Posix 标准 定义 了 许多 操作 信和 号 量 的 函数 。 








#include <semaphore.h> 


int sem_init(sem t *sem, 0, unsigned int value); 
int sem_ wait(sem_t *s); /* P(s) */ 
int sem_post(sem_t *s); /* V(s) */ 
返回 : 若 成 功 则 为 0， 若 出 错 则 为 一 1。 
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sem init 函数 将 信号 量 sem 初始 化 为 value。 每 个 信号 量 在 使 用 前 必须 初始 化 。 针 
对 我 们 的 目的 ， 中 间 的 参数 总 是 零 。 程 序 分 别 通过 调用 sem_wait 和 sem_post 函数 来 执 
行 P 和 V 操作 。 为 了 简明 ,我们 更 喜欢 使 用 下 面 这 些 等 价 的 P 和 VV 的 包装 函数 : 








#include "csapp.h" 


void P(sem_t *s); /* Wrapper function for sem_wait */ 
void V(sem t *s); /* Wrapper function for sem_post */ 


返回 : 无 。 








| 旁 注 | P 和 V 名 字 的 起 源 


Edsger Dijkstra(1930 一 2002) 出 生 于 荷兰 。 名 字 王 和 你 来 源 于 荷兰 语 单词 Proberen 
(测试 ) 和 Verhogen( 增 加 ) 。 


12.5.3 使 用 信号 量 来 实现 互 斥 


信号 量 提供 了 一 种 很 方便 的 方法 来 确保 对 共享 变量 的 互 斥 访问 。 基 本 思想 是 将 每 个 共 
享 变量 (或 者 一 组 相关 的 共享 变量 ) 与 一 个 信号 量 (初始 为 1) 联系 起 来 ， 然 后 用 P(s) 和 V 
CS) 操作 将 相应 的 临界 区 包围 起 来 。 

以 这 种 方式 来 保护 共享 变量 的 信号 量 叫做 二 元 信号 量 (binary semaphore)， 因 为 它 的 
值 总 是 0 或 者 1。 以 提供 互 斥 为 目的 的 二 元 信号 量 常常 也 称 为 互 斥 锁 (mutex)。 在 一 个 互 
斥 锁 上 执行 已 操 作 称 为 对 互 斥 锁 加 锁 。 类 似 地 ， 执 行 V 操作 称 为 对 互 斥 锁 解 锁 。 对 一 个 
互 斥 锁 加 了 锁 但 是 还 没有 解锁 的 线程 称 为 占用 这 个 互 斥 锁 。 一 个 被 用 作 一 组 可 用 资源 的 计 
数 器 的 信号 量 被 称 为 计数 信号 量 。 

图 12-22 中 的 进度 图 展示 了 我 们 如 何 利用 二 元 信号 量 来 正确 地 同步 计数 器 程序 示例 。 
每 个 状态 都 标 出 了 该 状态 中 信号 量 ; 的 值 。 关 键 思想 是 这 种 P 和 V 操作 的 结合 创建 了 一 组 
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图 12-22 ”使 用 信号 量 来 互 斥 。s<<0 的 不 可 行 状态 定义 了 一 个 禁止 区 ， 禁 止 区 
完全 包括 了 不 安全 区 ， 阻 止 了 实际 可 行 的 轨迹 线 接触 到 不 安全 区 
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状态 ， 叫 做 禁止 区 (forbidden region) ， 其 中 ;二 0。 因 为 信号 量 的 不 变性 ， 没 有 实际 可 行 的 
轨迹 线 能 够 包含 禁止 区 中 的 状态 。 而 且 ， 因 为 禁止 区 完全 包括 了 不 安全 区 ， 所 以 没有 实际 
可 行 的 轨迹 线 能 够 接触 不 安全 区 的 任何 部 分 。 因 此 ， 每 条 实际 可 行 的 轨迹 线 都 是 安全 的 ， 
而 且 不 管 运行 时 指令 顺序 是 怎样 的 ， 程 序 都 会 正确 地 增加 计数 器 值 。 

从 可 操作 的 意义 上 来 说 ， 由 P 和 V 操作 创建 的 禁止 区 使 得 在 任何 时 间 点 上 ， 在 被 包 
围 的 临界 区 中 ， 不 可 能 有 多 个 线程 在 执行 指令 。 换 句 话 说， 信和 号 量 操作 确 保 了 对 临界 区 的 
互 斥 访问 。 

总 的 来 说 ， 为 了 用 信和 号 量 正 确 同步 图 12-16 中 的 计数 器 程序 示例 ， 我 们 首先 声明 一 个 
信和 号 量 mutex: 


Volatile long cnt = 0; /* Counter */ 
sem_t mutex; /* Semaphore that protects counter */ 


然后 在 主 例 程 中 将 mutex 初始 化 为 1: 


Sem_init(&mutex, 0, 1); /* mutex = 1 */ 


后 ， 我 们 通过 把 在 线程 例 程 中 对 共享 变量 cnt 的 更 新 包围 P 和 V 操作 ， 从 而 保护 


它们 : 
for (i = 0; i < niters; i++) { 
P(g&mutex); 
cnt++; 
V(&mutex); 
} 


当 我 们 运行 这 个 正确 同步 的 程序 时 ， 现 在 它 每 次 都 能 产生 正确 的 结果 了 。 
linux> ./goodcnt 1000000 
OK cnt=2000000 


linux> ./goodcnt 1000000 
OK cnt=2000000 


区 要 进度 图 的 局 限 性 

进度 图 给 了 我 们 一 种 较 好 的 方法 ， 将 在 单 处 理 器 上 的 并 发 程序 执行 可 视 化 ， 也 帮助 
我 们 理解 为 什么 需要 同步 。 然 而 ， 它 们 确实 也 有 局 限 性 ， 特 别 是 对 于 在 多 处 理 器 上 的 并 
发 执行 ， 在 多 处 理 器 上 一 组 CPU/ 高 速 缓存 对 共享 同一 个 主 存 。 多 处 理 器 的 工作 方式 是 
进度 图 不 能 解释 的 。 特 别 是 ， 一 个 多 处 理 器 内 存 系统 可 以 处 于 一 种 状态 ， 不 对 应 于 进度 
图 中 任何 轨迹 线 。 不 管 如 何 ， 结 论 总 是 一 样 的 : 无 论 是 在 单 处 理 器 还 是 多 处 理 器 上 运行 
程序 ， 都 要 同步 你 对 共享 变量 的 访问 。 


12. 5.4 利用 信号 量 来 调度 共享 资源 


除了 提供 互 斥 之 外 ， 信 和 号 量 的 另 一 个 重要 作用 是 调度 对 共享 资源 的 访问 。 在 这 种 场景 
中 ， 一 个 线程 用 信号 量 操作 来 通知 另 一 个 线程 ， 程 序 状 态 中 的 某 个 条 件 已 经 为 真 了 。 两 个 
经 典 而 有 用 的 例子 是 生产 者 -消费 者 和 读者 - 写 者 问题 。 

1. 生产 者 -消费 者 问题 

图 12-23 给 出 了 生产 者 -消费 者 问题 。 生 产 者 和 消费 者 线程 共享 一 个 有 半 个 槽 的 有 限 缓 冲 
区 。 生 产 者 线程 反复 地 生成 新 的 项 目 (item)， 并 把 它们 插入 到 缓冲 区 中 。 消 费 者 线程 不 断 地 
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从 缓冲 区 中 取出 这 些 项 目 ， 然 后 消费 (使 用 ) 它 们 。 也 可 能 有 多 个 生产 者 和 消费 者 的 变种 。 


生产 者 线程 有 限 的 缓冲 区 消费 者 线程 


图 12-23 ”生产 者 -消费 者 问题 。 生 产 者 产生 项 目 并 把 它们 插入 到 一 个 有 限 的 缓冲 区 中 。 
消费 者 从 缓冲 区 中 取出 这 些 项 目 ， 然 后 消费 它们 

因为 插入 和 取出 项 目 都 涉及 更 新 共享 变量 ， 所 以 我 们 必须 保证 对 缓冲 区 的 访问 是 互 斥 
的 。 但 是 只 保证 互 斥 访问 是 不 够 的 ， 我 们 还 需要 调度 对 缓冲 区 的 访问 。 如 果 缓 冲 区 是 满 的 
(没有 空 的 槽 位 )， 那 么 生产 者 必须 等 待 直到 有 一 个 槽 位 变 为 可 用 。 与 之 相似 ， 如 果 缓 冲 区 
是 空 的 (没有 可 取 用 的 项 目 )， 那 么 消费 者 必须 等 待 直到 有 一 个 项 目 变 为 可 用 。 

生产 者 -消费 者 的 相互 作用 在 现实 系统 中 是 很 普遍 的 。 例 如 ， 在 一 个 多 媒体 系统 中 ， 
生产 者 编码 视频 帧 ， 而 消费 者 解码 并 在 屏幕 上 呈现 出 来 。 缓 冲 区 的 目的 是 为 了 减少 视频 流 
的 抖动 ， 而 这 种 抖动 是 由 各 个 帧 的 编码 和 解码 时 与 数据 相关 的 差异 引起 的 。 缓 冲 区 为 生产 
者 提供 了 一 个 模 位 池 ， 而 为 消费 者 提供 一 个 已 编码 的 帧 池 。 另 一 个 常见 的 示例 是 图 形 用 户 
接口 设计 。 生 产 者 检测 到 鼠标 和 键盘 事件 ， 并 将 它们 插入 到 缓冲 区 中 。 消 费 者 以 某 种 基于 
优先 级 的 方式 从 缓冲 区 取出 这 些 事件 ， 并 显示 在 屏幕 上 。 

在 本 节 中 ， 我 们 将 开发 一 个 简单 的 包 ， 叫 做 SBUF， 用 来 构造 生产 者 -消费 者 程序 。 
在 下 一 节 里 ， 我 们 会 看 到 如 何 用 它 来 构造 一 个 基于 预 线 程 化 (prethreading) 的 有 趣 的 并 发 
服务 器 。SBUF 操作 类 型 为 sbuf t 的 有 限 缓 冲 区 (图 12-24) 。 项 目 存放 在 一 个 动态 分 配 的 
n 项 整数 数组 (buf) 中 。front 和 rear 索引 值 记 录 该 数组 中 的 第 一 项 和 最 后 一 项 。 三 个 信 
号 量 同步 对 缓冲 区 的 访问 。mutex 信号 量 提供 互 斥 的 缓冲 区 访问 。slots 和 items 信号 量 
分 别 记 录 空 槽 位 和 可 用 项 目的 数量 。 


code/conc/sbufh 
1 typedef struct { 
2 int *buf; /* Buffer array */ 
3 int Ts /* Maximum number of slots */ 
4 int front; /* buf[(front+1)%n] is first item */ 
5 int rear; /* buf[rear%n] is last item */ 
6 sem_t mutex; /* Protects accesses to buf */ 
7 sem_t slots; /* Counts available slots */ 
8 sem_t items; /* Counts available items */ 
9 } Sbut. Tt; 
code/conc/sbuf h 


图 12-24 sbuf t: SBUF 包 使 用 的 有 限 缓冲 区 


图 12-25 给 出 了 SBUF 函数 的 实现 。sbuf init 函数 为 缓冲 区 分 配 堆 内 存 ， 设 置 
front 和 rear 表示 一 个 空 的 缓冲 区 ， 并 为 三 个 信号 量 赋 初 始 值 。 这 个 函数 在 调用 其 他 三 
个 函数 中 的 任何 一 个 之 前 调用 一 次 。sbuf deinit 函数 是 当 应 用 程序 使 用 完 缓冲 区 时 ， 释 
放 缓 冲 区 存储 的 。sbuf insert 函数 等 待 一 个 可 用 的 槽 位 ， 对 互 斥 锁 加 锁 ， 添 加 项 目 ， 对 
互 斥 锁 解 锁 ， 然 后 宣布 有 一 个 新 项 目 可 用 。sbuf remove 图 数 是 与 sbuf_ insert 函数 对 
称 的 。 在 等 待 一 个 可 用 的 缓冲 区 项 目 之 后 ， 对 互 斥 锁 加 锁 ， 从 缓冲 区 的 前 面 取出 该 项 目 ， 
对 互 斥 锁 解 锁 ， 然 后 发 信号 通知 一 个 新 的 槽 位 可 供 使 用 。 
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让 加 练习 题 12.9 


#include "csapp.h" 
#include "sbuf.h" 


code/conc/sbufc 


/* Create an empty, bounded, shared FIFO buffer with n slots */ 


void sbuf_init(sbuf_t *sp, int n) 


和. 


sp->buf = Calloc(n, sizeof (int)); 


sp->n = n; 

sp->front = sp->rear = 

Sem_init(&sp->mutex, 0, 

Sem_init(&sp->slots, 0, 

Sem_init(&sp->items, 0, 0); 
} 


/* Clean up buffer sp */ 
void sbuf_deinit(sbuf_t *sp) 
{ 

Free(sp->buf) ; 
} 


3 
/* 
/* 
/* 
/* 


Buffer 


holds max of n items */ 


Empty buffer iff front == rear */ 


Binary 


semaphore for locking */ 


Initially, buf has n empty slots */ 
Initially, buf has zero data items */ 


/* Insert item onto the rear of shared buffer sp */ 
void sbuf_insert(sbuf_t *sp, int item) 


七 
P(gsp->slots) ; 
P(&sp->mutex) ; 
sp->buf [(++sp->rear)%(sp->n)] = 
V(&sp->mutex); 
V(&sp->items); 
} 


/* 
/* 


item; /* 


/* 
/* 


Wait for available slot */ 
Lock the buffer */ 

Insert the item */ 

Unlock the buffer */ 
Announce available item */ 


/* Remove and return the first item from buffer sp */ 


int sbuf_remove(sbuf_t *sp) 


{ 
int item; 
P(&sp->items) ; /* 
P(&sp->mutex) ; /* 
item = sp->buf [(++sp->front)%(sp->n)]; /* 
V(&sp->mutex) ; /* 
V(&sp->slots); /* 
return item; 

} 


Wait for available item */ 
Lock the buffer */ 

Remove the item */ 

Unlock the buffer */ 
Announce available slot */ 


code/conc/sbufc 


图 12-25 SBUF: 同步 对 有 限 缓 冲 区 并 发 访问 的 包 


设 刀 表示 生产 者 数量 ，c 表示 消费 者 数量 ,而 nn 表示 以 项 目 单元 为 单位 


的 缓冲 区 大 小 。 对 于 下 面 的 每 个 场景 ， 指 出 sbuf_insert 和 sbuf _remove 中 的 互 斥 


锁 信 号 量 是 否 是 必需 的 。 
A.p=1, c=1, n>1 
B. p=1, c=1, n=1 

(Ga Bl, El, n=1 

2. 读者 - 写 者 问题 


读者 - 写 者 问题 是 互 斥 问题 的 一 个 概括 。 一 组 并 发 的 线程 要 访问 一 个 共享 对 象 ， 例 如 
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一 个 主 存 中 的 数据 结构 ， 或 者 一 个 磁盘 上 的 数据 库 。 有 些 线程 只 读 对 象 ， 而 其 他 的 线程 只 
修改 对 象 。 修 改 对 象 的 线程 叫做 写 考 。 只 读 对 象 的 线程 叫做 读者 。 写 者 必须 拥有 对 对 象 的 
独占 的 访问 ， 而 读者 可 以 和 无 限 多 个 其 他 的 读者 共享 对 象 。 一 般 来 说 ， 有 无 限 多 个 并 发 的 
读者 和 写 者 。 

读者 - 写 者 交互 在 现实 系统 中 很 常见 。 例 如 ， 一 个 在 线 航空 预定 系统 中 ， 人 允许 有 
无 限 多 个 客户 同时 查看 座位 分 配 ， 但 是 正在 预订 座位 的 客户 必须 拥有 对 数据 库 的 独占 
的 访问 。 再 来 看 另 一 个 例子 ， 在 一 个 多 线程 缓存 Web 代理 中 ， 无限 多 个 线程 可 以 从 
共享 页 面 缓存 中 取出 已 有 的 页 面 ， 但 是 任何 向 缓存 中 写 和 人 一 个 新 页 面 的 线程 必须 拥有 
独占 的 访问 。 

读者 - 写 者 问题 有 几 个 变种 ， 分 别 基 于 读者 和 写 者 的 优先 级 。 第 一 类 读者 - 写 者 问题 ， 读 
者 优先 ， 要 求 不 要 让 读者 等 待 ， 除 非 已 经 





把 使 用 对 象 的 权限 赋予 了 一 个 写 者 。 换 名 | /* Global variables */ 
话说 ， 读 者 不 会 因为 有 一 个 写 者 在 等 待 而 int readcnt; /* Initially = 0 */ 


sem_t mutex, w; /* Both initially = 1 */ 


等 待 。 第 二 类 读者 - 写 者 问题 ， 写 者 优先 ， 
要 求 一 旦 一 个 写 者 准备 好 可 以 写 ， 它 就 会 | void reader (void) 
尽 可 能 快 地 完成 它 的 写 操作 。 同 第 一 类 问 | 1 


题 不 同 ， 在 一 个 写 者 后 到 达 的 读者 必须 等 ce 
待 ， 即 使 这 个 写 者 也 是 在 等 待 。 end 
图 12-26 给 出 了 一 个 对 第 一 类 读者 - if (readcnt == 1) /* First in */ 
写 者 问题 的 解答 。 同 许多 同步 问题 的 解 P (&w); 
答 一 样 ， 这 个 解答 很 微妙 ， 极 具 欺骗 性 a 
地 简单 。 信 号 量 w 控制 对 访问 共享 对 象 人 Critical section Rf 
的 临界 区 的 访问 。 信 号 量 mutex 保护 对 /* Reading happens */ 
共享 变量 readcnt 的 访问 ，readcnt 统 
计 当 前 在 临界 区 中 的 读者 数量 。 每 当 一 hea 
个 写 者 进入 临界 区 时 ， 它 对 互 奈 锁 w 加 I fr == 0) /* Last out */ 
锁 ， 每 当 它 离 开 临界 区 时 ， 对 w 解锁 。 VCew) ; 


这 就 保证 了 任意 时 刻 临界 区 中 最 多 只 有 VC&mutex) ; 
一 个 写 者 。 另 一 方面 ， 只 有 第 一 个 进入 | ，“ 
临界 区 的 读者 对 w 加 锁 ， 而 只 有 最 后 一 i 
个 离开 临界 区 的 读者 对 w 解 锁 。 当 一 个 te writer(void) 


读者 进入 和 离开 临界 区 时 ， 如 果 还 有 其 while (1) { 
他 读者 在 临界 区 中 ， 那 么 这 个 读者 会 忽 P(g&w); 
略 互 斥 锁 w。 这 就 意味 着 只 要 还 有 一 个 读 ， 
/* Critical section */ 
者 占用 互 斥 锁 w， 无 限 多 数量 的 读者 可 以 es 
没有 障碍 地 进入 临界 区 。 
对 这 两 种 读者 - 写 者 问题 的 正确 解答 V (gw); 


可 能 导致 饥饿 (starvation)， 饥 饿 就 是 一 
个 线程 无 限期 地 阻塞 ,无 法 进展 。 例 如 ， 
图 12-26 所 示 的 解答 中 ， 如 果 有 读者 不 断 图 12-26 ”对 第 一 类 读者 - 写 者 问题 的 解答 。 
地 到 达 ， 写 者 就 可 能 无 限期 地 等 待 。 读者 优先 级 高 于 写 者 
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| 练习 题 12. 10 图 12-26 所 示 的 对 第 一 类 读者 - 写 者 问题 的 解答 给 予 读者 较 高 的 优先 
级 ,但 是 从 某 种 意义 上 说 ， 这 种 优先 级 是 很 弱 的 ， 因 为 一 个 离开 临界 区 的 写 者 可 能 重 
启 一 个 在 等 待 的 写 者， 而 不 是 一 个 在 等 待 的 读者 。 描 述 出 一 个 场景 ， 其 中 这 种 弱 优 先 
级 会 导致 一 群 写 者 使 得 一 个 读者 饥饿 。 


| 旁 注 | 其 他 同步 机 制 

我 们 已 经 向 你 展示 了 如 何 利 用 信号 量 来 同步 线程 ， 主 要 是 因为 它们 简单 、 经 典 ， 并 且 
有 一 个 清晰 的 语义 模型 。 但 是 你 应 该 知道 还 是 存在 着 其 他 同步 技术 的 。 例 如 ，Java 线程 是 
用 一 种 叫做 Java 监控 器 (Java Monitor)[48j] 的 机 制 来 同步 的 ， 它 提供 了 对 信号 量 互 斥 和 调 
度 能 力 的 更 高 级 别 的 抽象 ; 实际 上 ， 监 控 器 可 以 用 信号 量 来 实现 。 再 来 看 一 个 例子 ，. 
Pthreads 接口 定义 了 一 组 对 互 斥 锁 和 条 件 变量 的 同步 操作 。Pthreads 互 斥 锁 被 用 来 实现 互 
斤 。 条 件 变 量 用 来 调度 对 共享 资源 的 访问 ， 例 如 在 一 个 生产 者 -消费 者 程序 中 的 有 限 缓冲 区 。 





12. 5.5 综合 : 基于 预 线程 化 的 并 发 服务 器 


我 们 已 经 知道 了 如 何 使 用 信和 号 量 来 访问 共享 变量 和 调度 对 共享 资源 的 访问 。 为 了 帮助 
你 更 清晰 地 理解 这 些 思想 ， 让 我 们 把 它们 应 用 到 一 个 基于 称 为 预 线程 化 (prethreading) 技 
术 的 并 发 服务 器 上 。 

在 图 12-14 所 示 的 并 发 服务 器 中 ， 我 们 为 每 一 个 新 客户 端 创建 了 一 个 新 线程 。 这 种 方 
法 的 缺点 是 我 们 为 每 一 个 新 客户 端 创建 一 个 新 线程 ， 导 致 不 小 的 代价 。 一 个 基于 预 线 程 化 
的 服务 器 试图 通过 使 用 如 图 12-27 所 示 的 生产 者 -消费 者 模型 来 降低 这 种 开销 。 服 务 器 是 
由 一 个 主线 程 和 一 组 工作 者 线程 构成 的 。 主 线程 不 断 地 接受 来 自 客户 端的 连接 请 求 ， 并 将 
得 到 的 连接 描述 符 放 在 一 个 有 限 缓冲 区 中 。 每 一 个 工作 者 线程 反复 地 从 共享 缓冲 区 中 取出 
描述 符 ， 为 客户 端 服务 ， 然 后 等 待 下 一 个 描述 符 。 


服务 客户 端 工作 者 线程 池 





客户 端 
服务 客户 端 
图 12-27 ” 预 线 程 化 的 并 发 服务 器 的 组 织 结构 。 一 组 现 有 的 线程 不 断 地 取出 
和 处 理 来 自 有 限 缓冲 区 的 已 连接 描述 符 


图 12-28 显示 了 我 们 怎样 用 SBUF 包 来 实现 一 个 预 线程 化 的 并 发 echo 服务 器 。 在 初始 
化 了 缓冲 区 sbuf (第 24 行 ) 后 ， 主 线程 创建 了 一 组 工作 者 线程 (第 25 一 26 行 )。 然 后 它 进 
人 了 无 限 的 服务 器 循环 ， 接 受 连 接 请 求 ， 并 将 得 到 的 已 连接 描述 符 插 入 到 缓冲 区 sbuf 中 。 
每 个 工作 者 线程 的 行为 都 非常 简单 。 它 等 待 直到 它 能 从 缓冲 区 中 取出 一 个 已 连接 描述 符 
(第 39 行 )， 然 后 调用 echo_cnt 函数 回 送 客 户 端 的 输入 。 

图 12-29 所 示 的 函数 echo_cnt 是 图 11-22 中 的 echo 函数 的 一 个 版 本 ， 它 在 全 局 变量 
byte_cnt 中 记录 了 从 所 有 客户 端 接收 到 的 累计 字 节 数 。 这 是 一 段 值得 研究 的 有 趣 代 码 ， 
因为 它 向 你 展示 了 一 个 从 线程 例 程 调用 的 初始 化 程序 包 的 一 般 技术 。 在 这 种 情况 中 ， 我 们 
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需要 初始 化 byte_cnt 计数 器 和 mutex 信号 量 。 一 个 方法 是 我 们 为 SBUF 和 RIO 程序 包 
使 用 过 的 ， 它 要 求 主 线程 显 式 地 调用 一 个 初始 化 函数 。 另 外 一 个 方法 ， 在 此 显示 的 ， 是 当 
第 一 次 有 某 个 线程 调用 echo_cnt 函数 时 ， 使 用 pthread once 函数 (第 19 行 ) 去 调用 初始 化 
函数 。 这 个 方法 的 优点 是 它 使 程序 包 的 使 用 更 加 容易 。 这 种 方法 的 缺点 是 每 一 次 调用 echo_ 
cnt 都 会 导致 调用 pthread once 函数 ， 而 在 大 多 数 时 候 它 没 有 做 什么 有 用 的 事 。 


code/conc/echoservert-pre.c 


1 #include "csapp.h" 

2 #include "sbuf.h" 

和 #define NTHREADS 4 

4 #define SBUFSIZE 16 

; 

6 void echo_cnt(int connfd) ; 

7 void *thread(void *vargp); 

8 

9 sbuf_t sbuf; /* Shared buffer of connected descriptors */ 

10 

11 int main(int argc, char **argv) 

认 区 

13 int i, listenfd, connfd; 

14 socklen_t clientlen; 

15 struct sockaddr_storage clientaddr; 

16 pthread_t tid; 

17 

18 i (arge i D2》 

19 fprintf (stderr, "usage: %s <port>\n", argv[0]); 

20 exit (0); 

21 = 

22 listenfd = Open_listenfd(argv[1]); 

23 

24 sbuf_init(&sbuf, SBUFSIZE); 

25 for (i = 0; i < NTHREADS; i++) /* Create worker threads */ 
26 Pthread_create(&tid，NULL，thread，NULL) ; 

27 

28 while (1) { 

29 clientlen = sizeof (struct sockaddr_storage); 

30 connfd = Accept (listenfd, (SA *) &clientaddr, &clientlen); 
31 sbuf_insert(&sbuf, connfd); /* Insert connfd in buffer */ 
32 } 

3 +} 

34 

35 void *thread(void *vargp) 

36 +{ 

37 Pthread_detach(pthread_self ()); 

38 while (1) { 

39 int connfd = sbuf_remove(&sbuf); /* Remove connfd from buffer */ 
40 echo_cnt (connfd); /* Service client */ 
41 Close(connfd) ; 

42 和 


code/conc/echoservert-pre.c 


图 12-28 ”一 个 预 线程 化 的 并 发 echo 服务 器 。 这 个 服务 器 使 用 的 是 
有 一 个 生产 者 和 多 个 消费 者 的 生产 者 -消费 者 模型 
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code/conc/echo-cnt.c 


1 #include "csapp.h" 

2 

3 static int byte_cnt; /* Byte counter */ 

4 static sem t mutex; /* and the mutex that protects it */ 
和 

6 static void init_echo_cnt (void) 

Ww 革 

8 Sem_init(&mutex, 0, 1); 

9 byte_cnt = 0; 

10 } 

11 

12 void echo_cnt(int connfd) 

13 { 

14 int n; 

15 char buf [MAXLINE] ; 

16 FIO TIiOR 

梳 static pthread_once_t once = PIHREAD_ONCE_INIT; 

18 

19 Pthread_once(&once，init_echo_cnt) ; 

20 Rio_readinitb(&rio, connfd); 

i while((n = Rio_readlineb(&rio, buf, MAXLINE)) != 0) { 
22 P(&mutex); 

23 byte_cnt += 1n; 

24 printf("server received %d (%d total) bytes on fd %d\n', 
25 n, byte_cnt, connfd); 

26 V(Cgmutex) ; 

27 Rio_writen(connfd, buf, n); 

28 } 

29 } 


code/conc/echo-cnt.c 


图 12-29 ”echo_cnt: echo 的 一 个 版 本 ， 它 对 从 客户 端 接收 的 所 有 字 节 计数 


一 旦 程序 包 被 初始 化 ，echo_cnt 函数 会 初始 化 RIO 带 缓冲 区 的 WO 包 ( 第 20 行 )， 
然后 回 送 从 客户 端 接收 到 的 每 一 个 文本 行 。 注 意 ， 在 第 23 一 25 行 中 对 共享 变量 byte_cnt 
的 访问 是 被 P 和 V 操作 保护 的 。 


旁 注 | 基于 线程 的 事件 驱动 程序 

1/ 〇 多 路 复 用 不 是 编写 事件 驱动 程序 的 唯一 方法 。 例如， 你 可 能 已 经 注意 到 我 们 刚 
才 开 发 的 并 发 的 预 线程 化 的 服务 器 实际 上 是 一 个 事件 驱动 服务 器 ， 带 有 主线 程 和 工作 者 
线程 的 简单 状态 机 。 主 线程 有 两 种 状态 (“ 等 待 连接 请 求 ” 和 “等 待 可 用 的 缓冲 区 楼 
位 ”)、 两 个 I/O 事件 (“连接 请 求 到 达 ” 和 “缓冲 区 权 位 变 为 可 用 ”) 和 两 个 转换 (“接受 连 
接 请 求 ” 和 “插入 缓冲 区 项 目 ?)。 类 似 地 ， 每 个 工作 者 线程 有 一 个 状态 (“ 等 待 可 用 的 缓 
冲 项 目 ”)、 一 个 1/O 事件 (“ 缓 冲 区 项 目 变 为 可 用 ?) 和 一 个 转换 (“ 取 出 缓冲 区 项 目 ”)。 


12.6 使 用 线程 提高 并 行 性 
到 目前 为 止 ， 在 对 并 发 的 研究 中 ， 我 们 都 假设 并 发 线程 是 在 单 处 理 器 系统 上 执行 的 。 
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然而 ， 大 多 数 现代 机 器 具有 多 核 处 理 器 。 并 发 程序 通常 在 这 样 的 机 器 上 运行 得 更 快 ， 因 为 
操作 系统 内 核 在 多 个 核 上 并 行 地 调度 这 些 并 发 线程 ， 而 不 是 在 单个 核 上 顺序 地 调度 。 在 像 
繁忙 的 Web 服务 器 、 数 据 库 服务 器 和 大 型 科学 计算 代码 这 样 的 应 用 中 利用 这 样 的 并 行 性 
是 至 关 重要 的 ， 而 且 在 像 Web 浏览 器 、 电 子 表格 处 理 程序 和 文档 处 理 程序 这 样 的 主流 应 
用 中 ， 并 行 性 也 变 得 越 来 越 有 用 。 所 有 的 程序 

图 12-30 给 出 了 顺序 、 并 发 和 并 行程 序 之 间 的 。 [Ff 发表 序 
集合 关系 。 所 有 程序 的 集合 能 够 被 划分 成 不 相交 


的 顺序 程序 集合 和 并 发 程序 的 集合 。 写 顺序 程序 
只 有 一 条 逻辑 流 。 写 并 发 程序 有 多 条 并 发 流 。 并 bn 


行程 序 是 一 个 运行 在 多 个 处 理 器 上 的 并 发 程序 。 





因此 ， 并 行程 序 的 集合 是 并 发 程序 集合 的 真子 集 。 图 12-30 顺序、 并 发 和 并 行程 序 
并 行程 序 的 详细 处 理 超 出 了 本 书 讲述 的 范围 ， 集合 之 间 的 关系 


但 是 研究 一 个 非常 简单 的 示例 程序 能 够 帮助 你 理解 并 行 编程 的 一 些 重要 的 方面 。 例 如 ， 考 
虑 我 们 如 何 并 行 地 对 一 列 整 数 0，…，n 一 1 求 和 。 当 然 ， 对 于 这 个 特殊 的 问题 ， 有 闭合 形 
式 表 达 式 的 解答 ( 译 者 注 ， 即 有 现成 的 公式 来 计算 它 ， 即 和 等 于 nln 一 1)/2)， 但 是 尽管 如 
此 ， 它 是 一 个 简洁 和 易于 理解 的 示例 ， 能 让 我 们 对 并 行程 序 做 一 些 有 趣 的 说 明 。 

将 任务 分 配 到 不 同 线程 的 最 直接 方法 是 将 序列 划分 成 i 个 不 相交 的 区 域 ， 然 后 给 t 个 
不 同 的 线程 每 个 分 配 一 个 区 域 。 为 了 简单 ， 假 设 n 是 i 的 倍数 ， 这 样 每 个 区 域 有 n/t 个 元 
素 。 让 我 们 来 看 看 多 个 线程 并 行 处 理 分 配给 它们 的 区 域 的 不 同方 法 。 

最 简单 也 最 直接 的 选择 是 将 线程 的 和 放 人 一 个 共享 全 局 变量 中 ， 用 互 斥 锁 保护 这 个 变 
量 。 图 12-31 给 出 了 我 们 会 如 何 实现 这 种 方法 。 在 第 28 一 33 行 ， 主 线程 创建 对 等 线程 ， 然 后 
等 待 它们 结束 。 注 意 ， 主 线程 传递 给 每 个 对 等 线程 一 个 小 整数 ， 作 为 唯一 的 线程 ID。 每 个 对 
等 线程 会 用 它 的 线程 人 D 来 决定 它 应 该 计算 序列 的 哪 一 部 分 。 这 个 向 对 等 线程 传递 一 个 小 的 
唯一 的 线程 ID 的 思想 是 一 项 通用 技术 ， 许 多 并 行 应 用 中 都 用 到 了 它 。 在 对 等 线程 终止 后 ， 
全 局 变量 gsum 包 含 着 最 终 的 和 。 然 后 主线 程 用 闭合 形式 解答 来 验证 结果 (第 36 一 37 行 )。 


code/conc/psum-mutex.c 





#include "csapp.h" 


| 

2 #define MAXTHREADS 32 

3 

4 void *sum_mutex(void *vargp); /* Thread routine */ 

5 

6 /* Global shared variables */ 

7 long gsum = 0; /* Global sum */ 

8 long nelems_per_thread; /* Number of elements to sum */ 

9 sem_t mutex; /* Mutex to protect global sum */ 
10 

i int main(int argc, char **argv) 

12 { 

13 long i, nelems, log_nelems, nthreads, myid[MAXTHREADS]; 
14 pthread_t tid[MAXTHREADS] ; 

15 

16 /* Get :input arguments */ 


图 12-31 psum-mutex 的 主 程序 ， 使 用 多 个 线程 将 一 个 序列 元 素 的 和 放 人 
一 个 用 互 斥 锁 保 护 的 共享 全 局 变量 中 
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17 if (argc != 3) { 

18 printf("Usage: %s <nthreads> <log_nelems>\n", argv[0]); 
19 exit (0); 

20 去 

21 nthreads = atoi(argv[1]); 

22 log_nelems = atoi(argv[2]); 

23 nelems = (1L << log_nelems); 

24 nelems_per_thread = nelems / nthreads; 

25 sem_init(&mutex, 0, 1); 

26 

27 /* Create peer threads and wait for them to finish */ 
28 for (i = 0; i < nthreads; i++) { 

29 myid[i] = i; 

30 Pthread_create(&tid[i] NULL, sum_mutex, &myid[i]); 
31 } 

32 for (i = 0; i < nthreads; i++) 

33 Pthread_join(tid[i] , NULL); 

34 

35 /* Check final answer */ 

36 if (gsum != (nelems * (nelems-1))/2) 

37 printf ("Error: result=%ld\n", gsum); 

38 

39 exit(0); 

40  】 


code/conc/psum-mutex.c 
图 12-31 ( 续 ) 


图 12-32 给 出 了 每 个 对 等 线程 执行 的 函数 。 在 第 4 行 中 ,线程 从 线程 参数 中 提取 出 线 
程 ID， 然 后 用 这 个 ID 来 决定 它 要 计算 的 序列 区 域 (第 5~6 行 )。 在 第 9~13 行 中 ， 线 程 在 
它 的 那 部 分 序列 上 迭代 操作 ， 每 次 和 迭代 都 更 新 共享 全 局 变量 gsum。 注 意 ， 我 们 很 小 心地 
用 已 和 六 互 斥 操 作 来 保护 每 次 更 新 。 


code/conc/psum-mutex.c 


1 /* Thread routine for psum-mutex.c */ 

2 void *sum mutex(void *vargp) 

-| 

4 long myid = *((long *)vargp); /* Extract the thread ID */ 
5 long start = myid * nelems_per._thread; /* Start element index +*/ 
6 long end = start + nelems_per_thread; /* End element index */ 

7 long i; 

8 

9 for (i = start; i < end; i++) { 

10 P(&mutex) ; 

11 gsum += i; 

12 VC&mutex) ; 

全 } 

14 return NULL ; 

光 ”六 


code/conc/psum-mutex.c 


图 12-32 psum-mutex 的 线程 例 程 。 每 个 对 等 线程 将 各 自 的 和 累加 进 
一 个 用 互 斥 锁 保 护 的 共享 全 局 变量 中 
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我 们 在 一 个 四 核 系统 上 ， 对 一 个 大 小 为 n= 二 2 的 序列 运行 psum- mutex， 测 量 它 的 运 
行 时 间 ( 以 秘 为 单位 ) ， 作 为 线程 数 的 图 数 ， me 


二 民国 


序 单线 程 顺序 运行 时 非常 慢 ， 几 乎 比 多 线程 并 行 运行 时 人 慢 了 一 个 数量 级 。 不 仅 如 
此 ， 使 用 的 核 数 越 多 ， 性 能 越 差 。 造 成 性 能 差 的 原因 是 相对 于 内 存 更 新 操作 的 开销 ， 同 步 
操作 (P 和 V) 代 价 太 大 。 这 突显 了 并 行 编程 的 一 项 重要 教训 同步 开销 巨大 ， 要 尽 可 能 避 
免 。 如 果 无 可 避免 ， 必 须要 用 尽 可 能 多 的 有 用 计算 弥补 这 个 开销 。 
在 我 们 的 例子 中 ， 一 种 避免 同步 的 方法 是 让 每 个 对 等 线程 在 一 个 私有 变量 中 计算 它 自 
己 的 部 分 和 ， 这 个 私有 变量 不 与 其 他 任何 线程 共享 ， 如 图 12-33 所 示 。 主 线程 (图 中 未 显 
示 ) 定 义 一 个 全 局 数组 psum， 每 个 对 等 线程 i 把 它 的 部 分 和 累积 在 psum[i] 中 。 因 为 小 心 
地 给 了 每 个 对 等 线程 一 个 不 同 的 内 存 位 置 来 更 新 ， 所 以 不 需要 用 互 斥 锁 来 保护 这 些 更 新 。 
唯一 需要 同步 的 地 方 是 主线 程 必须 等 待 所 有 的 子 线程 完成 。 在 对 等 线程 结束 后 ， 主 线程 把 
psum 向 量 的 元 素 加 起 来 ， 得 到 最 终 的 结果 。 








版 本 1 


psum-mutex | 68 











code/conc/psum-array.c 


/* Thread routine for psum-array.c */ 


1 

2 void *sum_array(void *vargp) 

3 二 

4 long myid = *((long *)vargp); /* Extract the thread ID */ 
5 long start = myid * nelems_per_thread; /* Start element index */ 
6 long end = start + nelems_per_thread; /* End element index */ 

7 long i; 

8 

9 for (i = start; i < end; i++) { 

10 psum[myid] += i; 

11 

公 return NULL ; 

信永 


code/conc/psum-array.c 


图 12-33 ”psum-array 的 线程 例 程 。 每 个 对 等 线程 把 它 的 部 分 和 
累积 在 一 个 私有 数组 元 素 中 ， 不 与 其 他 任何 对 等 线程 共享 该 元 素 


在 四 核 系统 上 运行 psum- array 时 ， 我 们 看 到 它 比 psum- mutex 运行 得 快 好 几 个 数 
量 级 : 










I 
ovarray | 726 | 364 | 191 | i185 | i 

在 第 5 章 中 ,我们 学 习 到 了 如 何 使 用 局 部 变量 来 消除 不 必要 的 内 存 引 用 。 图 12-34 展 
示 了 如 何 应 用 这 项 原则 ， 让 每 个 对 等 线程 把 它 的 部 分 和 累积 在 一 个 局 部 变量 而 不 是 全 局 变 
量 中 。 当 在 四 核 机 器 上 运行 psum- local 时 ， 得 到 一 组 新 的 递减 的 运行 时 间 : 


序 间 的 交互 和 通信 
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code/conc/psum-local.c 





数 





1 /* Thread routine for psum-local.c */ 

2 void *sum_local(void *vargp) 

六 省 

4 long myid = *((long *)vargp); /* Extract the thread ID */ 
5 long start = myid * nelems_per_thread; /* Start element index */ 
6 long end = start + nelems_per_thread; /* End element index */ 

7 long i, sum = 0; 

8 

9 for (i = start; i < end; i++) { 

10 sum += i; 

11 8 

12 psum[myid] = sum; 

13 return NULL; 

WW 3 


code/conc/psum-local.c 
图 12-34 psum- local 的 线程 例 程 。 每 个 对 等 线程 把 它 的 部 分 和 累积 在 一 个 局 部 变量 中 


从 这 个 练习 可 以 学 习 到 一 个 重要 的 经 验 ， 那 就 是 写 并 行程 序 相 当 棘 手 。 对 代码 看 上 去 
很 小 的 改动 可 能 会 对 性 能 有 极 大 的 影响 。 


刻画 并 行程 序 的 性 能 

图 12-35 给 出 了 图 12-34 中 程序 
psum- local 的 运行 时 间 ， 它 是 线程 数 
的 函数 。 在 每 个 情况 下 ， 程 序 运行 在 一 
个 有 四 个 处 理 堪 核 的 系统 上 ， 对 一 个 
7 一 2 个 元 素 的 序列 求 和 。 我 们 看 到 ， 
随 着 线程 数 的 增加 ， 运 行 时 间 下 降 ， 直 
到 增加 到 四 个 线程 ， 此 时 ， 运 行 时 间 趋 
于 平稳 ， 甚 至 开始 有 点 增加 。 线程 

在 理想 的 情况 中 ， 我 们 会 期 望 运行 时 图 12-35 psum- local 的 性 能 (图 12-34) 。 用 四 个 
间 随 着 核 数 的 增加 线性 下 降 。 也 就 是 说 ， 处 理 器 核对 一 个 > 个 元 素 序 列 求 和 
我 们 会 期 望 线程 数 每 增加 一 倍 ， 运 行 时 间 就 下 降 一 半 。 确 实 是 这 样 ， 直 到 到 达 t 之 4 的 时 候 ， 
此 时 四 个 核 中 的 每 一 个 都 忙于 运行 至 少 一 个 线程 。 随 着 线程 数量 的 增加 ， 运 行 时 间 实 际 上 增 
加 了 一 点 儿 ， 这 是 由 于 在 一 个 核 上 多 个 线程 上 下 文 切换 的 开销 。 由 于 这 个 原因 ， 并 行程 序 常 
常 被 写 为 每 个 核 上 只 运行 一 个 线程 。 

虽然 绝对 运行 时 间 是 衡量 程序 性 能 的 终极 标准 ， 但 是 还 是 有 一 些 有 用 的 相对 衡量 标准 能 
够 说 明 并 行程 序 有 多 好 地 利用 了 潜在 的 并 行 性 。 并 行程 序 的 加 束 比 (speedup) 通 常 定义 为 


时 间 (s) 
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了 nm 

Ts 

这 里 p 是 处 理 器 核 的 数量 ，Txk 是 在 & 个 核 上 的 运行 时 间 。 这 个 公式 有 时 被 称 为 强 扩展 
(strong scaling)。 当 五 是 程序 顺序 执行 版 本 的 执行 时 间 时 ，S, 称 为 绝对 加 速 比 (absolute 
speedup) 。 当 TT 是 程序 并 行 版 本 在 一 个 核 上 的 执行 时 间 时 ，S, 称 为 相对 加 速 比 (relative 
speedup) 。 绝 对 加 速 比比 相对 加 速 比 能 更 真实 地 衡量 并 行 的 好 处 。 即 使 是 当 并 行程 序 在 一 
个 处 理 器 上 运行 时 ， 也 常常 会 受到 同步 开销 的 影响 ， 而 这 些 开 销 会 人 为 地 增加 相对 加 速 比 
的 数值 ， 因 为 它们 增加 了 分 子 的 大 小 。 另 一 方面 ， 绝 对 加 速 比比 相对 加 速 比 更 难以 测量 ， 
因为 测量 绝对 加 速 比 需 要 程序 的 两 种 不 同 的 版 本 。 对 于 复杂 的 并 行 代 码 ， 创 建 一 个 独立 的 
顺序 版 本 可 能 不 太 实 际 ， 或 者 因为 代码 太 复杂 ， 或 者 因为 源 代码 不 可 得 。 

一 种 相关 的 测量 量 称 为 效率 (efficiency)， 定 义 为 
品 。 元 
pW 
通常 表示 为 范围 在 (0，100] 之 间 的 百分比 。 效 率 是 对 由 于 并 行 化 造成 的 开销 的 衡量 。 具 有 
高 效率 的 程序 比 效率 低 的 程序 在 有 用 的 工作 上 花费 更 多 的 时 间 ， 在 同步 和 通信 上 花费 更 少 
的 时 间 。 

12-36 给 出 了 我 们 并 行 求 和 示 
例 程序 的 各 个 加 速 比 和 效率 测量 值 。 
像 这 样 超过 90% 的 效率 是 非常 好 的 ， 
但 是 不 要 被 欺骗 了 。 能 取得 这 么 高 的 
效率 是 因为 我 们 的 问题 非常 容易 并 行 
化 。 在 实际 中 ,很 少 会 这 样 。 数 十 年 
来 ,并行 编 程 一 直 是 一 个 很 活跃 的 研究 领域 。 随 着 商用 多 核 机 器 的 出 现 ， 这 些 机 器 的 核 数 
每 几 年 就 翻 一 番 ， 并 行 编程 会 继续 是 一 个 深入 、 困 难 而 活跃 的 研究 领域 。 

加 速 比 还 有 另外 一 面 ， 称 为 弱 扩 展 (weak scaling)， 在 增加 处 理 器 数量 的 同时 ， 增 加 
问题 的 规模 ， 这 样 随 着 处 理 器 数量 的 增加 ， 每 个 处 理 器 执行 的 工作 量 保持 不 变 。 在 这 种 擂 
述 中 ， 加 速 比 和 效率 被 表达 为 单位 时 间 完 成 的 工作 总 量 。 例 如 ， 如 果 将 处 理 器 数量 翻 倍 ， 
同时 每 个 小 时 也 做 了 两 倍 的 工作 量 ， 那 么 我 们 就 有 线性 的 加 速 比 和 100%% 的 效率 。 

弱 扩展 常常 是 比 强 扩展 更 真实 的 衡量 值 ， 因 为 它 更 准确 地 反映 了 我 们 用 更 大 的 机 器 做 
更 多 的 工作 的 愿望 。 对 于 科学 计算 程序 来 说 尤其 如 此 ， 科 学 计算 问题 的 规模 很 容易 增加 ， 
. 更 大 的 问题 规模 直接 就 意味 着 更 好 地 预测 。 不 过 ， 还 是 有 一 些 应 用 的 规模 不 那么 容易 增 
加 ， 对 于 这 样 的 应 用 ， 强 扩展 是 更 合适 的 。 例 如 ， 实 时 信和 号 处 理应 用 所 执行 的 工作 量 常常 
是 由 产生 信和 号 的 物理 传感器 的 属性 决定 的 。 改 变 工作 总 量 需 要 用 不 同 的 物理 传感器 ， 这 不 
太 实 际 或 者 不 太 必 要 。 对 于 这 类 应 用 ,我们 通常 想 要 用 并 行 来 尽 可 能 快 地 完成 定量 的 
工作 。 
练习 题 12. 11 对 于 下 表 中 的 并 行程 序 ， 填写 空白 处 。 假 设 使 用 强 扩 展 。 


线程 (7) 
核 (p) 
运行 时 间 (7,) 


加 速 比 (5,) 
效率 (EE,) 


5» = 












EC 
| 1 | nr | og | v29 [030 
[ae | te a 


TT [CS 本 


图 12-36 ”图 12-35 中 执行 时 间 的 加 速 比 和 并 行 效 率 



































716 第 三 部 分 程序 间 的 交互 和 通信 











12. 7 ”其 他 并 发 问题 

你 可 能 已 经 注意 到 了 ， 一旦 我 们 要 求 同 步 对 共享 数据 的 访问 ， 那 么 事情 就 变 得 复杂 得 
多 了 。 迄 今 为 止 ， 我 们 已 经 看 到 了 用 于 互 斥 和 生产 者 -消费 者 同步 的 技术 ， 但 这 仅仅 是 冰 
山 一 角 。 同 步 从 根本 上 说 是 很 难 的 问题 ， 它 引出 了 在 普通 的 顺序 程序 中 不 会 出 现 的 问题 。 
这 一 小 节 是 关于 你 在 写 并 发 程序 时 需要 注意 的 一 些 问 题 的 (非常 不 完整 的 ) 综 述 。 为 了 让 事 
情 具体 化 ， 我 们 将 以 线程 为 例 描 述 讨论 。 不 过 要 记 住 ， 这 些 典型 问题 是 任何 类 型 的 并 发 流 
操作 共享 资源 时 都 会 出 现 的 。 


12.7.1 线程 安全 


当 用 线程 编写 程序 时 ， 必 须 小 心地 编写 那些 具有 称 为 线程 安全 性 (thread safety) 属性 
的 函数 。 一 个 函数 被 称 为 线程 安全 的 (thread-safe) ， 当 且 仅 当 被 多 个 并 发 线程 反复 地 调用 
时 ， 它 会 一 直 产 生 正确 的 结果 。 如 果 一 个 函数 不 是 线程 安全 的 ， 我 们 就 说 它 是 线程 不 安全 
的 (thread-unsafe) 。 

我 们 能 够 定义 出 四 个 (不 相交 的 ) 线 程 不 安全 函数 类 

第 1 类: 不 保护 共享 变量 的 函数 。 我 们 在 图 12-16 的 thread 函数 中 就 已 经 遇 到 了 这 样 
的 问题 ， 该 函数 对 一 个 未 受 保护 的 全 局 计数 器 变量 加 1。 将 这 类 线程 不 安全 函数 变 成 线程 安 
全 的 ， 相 对 而 言 比较 容易 : 利用 像 PP 和 V 操作 这 样 的 同步 操作 来 保护 共享 的 变量 。 这 个 方法 
的 优点 是 在 调用 程序 中 不 需要 做 任何 修改 。 缺 点 是 同步 操作 将 减 慢 程序 的 执行 时 间 。 

第 2 类 : 保持 跨越 多 个 调用 的 状态 的 函数 。 一 个 伪 随 机 数 生 成 器 是 这 类 线程 不 安全 函 
数 的 简单 例子 。 请 参考 图 12-37 中 的 伪 随 机 数 生成 器 程序 包 。zrand 函数 是 线程 不 安全 的 ， 
因为 当前 调用 的 结果 依赖 于 前 次 调用 的 中 间 结 果 。 当 调用 srand 为 rand 设置 了 一 个 种 子 
后 ， 我 们 从 一 个 单线 程 中 反复 地 调用 rand， 能 够 预期 得 到 一 个 可 重复 的 随机 数字 序列 。 
然而 ， 如 果 多 线程 调用 rand 函数 ， 这 种 假设 就 不 再 成 立 了 。 

code/conc/rand.c 


unsigned next_seed = 1; 


1 

4 

3 /* rand - return pseudorandom integer in the range 0..32767 */ 
4 unsigned rand(void) 

5 攻 

6 next_seed = next_seed*1103515245 + 12543; 
7 return (unsigned) (next_seed>>16) % 32768; 
机 

9 . 

10 /* srand - set the initial seed for rand() */ 
11 void srand(unsigned new_seed) 

语 世 

13 next_seed = new_seed; 

14 } 


code/conc/rand.c 
图 12-37 一 个 线程 不 安全 的 伪 随 机 数 生成 器 (基于 [61]) 


使 得 像 rana 这 样 的 函数 线程 安全 的 唯一 方式 是 重 写 它 ， 使 得 它 不 再 使 用 任何 static 
数据 ， 而 是 依靠 调用 者 在 参数 中 传递 状态 信息 。 这 样 做 的 缺点 是 ， 程 序 员 现在 还 要 被 迫 修 
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改 调用 程序 中 的 代码 。 在 一 个 大 的 程序 中 ， 可 能 有 成 百 上 千 个 不 同 的 调用 位 置 ， 做 这 样 的 
修改 将 是 非常 麻烦 的 ， 而 且 容 易 出 错 。 

第 3 类 : 返回 指向 静态 变量 的 指针 的 函数 。 某 些 函 数 ， 例 如 ctime 和 gethost- 
byname， 将 计算 结果 放 在 一 个 static 变量 中 ， 然 后 返回 一 个 指向 这 个 变量 的 指针 。 如 果 我 
们 从 并 发 线程 中 调用 这 些 函 数 ， 那 么 将 可 能 发 生 灾难 ， 因 为 正在 被 一 个 线程 使 用 的 结果 会 
被 另 一 个 线程 悄悄 地 覆盖 了 。 

有 两 种 方法 来 处 理 这 类 线程 不 安全 函数 。 一 种 选择 是 重 写 函 数 ， 使 得 调用 者 传递 存放 结 
果 的 变量 的 地 址 。 这 就 消除 了 所 有 共享 数据 ， 但 是 它 要求 程 序 员 能 够 修改 函数 的 源 代码 。 

如 果 线 程 不 安全 函数 是 难以 修改 或 不 可 能 修改 的 (例如 ， 代 码 非常 复杂 或 是 没有 源 代 
码 可 用 )， 那 么 另外 一 种 选择 就 是 使 用 加 锁 - 复 制 (lock-and-copy) 技 术 。 基 本 思想 是 将 线程 
不 安全 函数 与 互 斥 锁 联 系 起 来 。 在 每 一 个 调用 位 置 ， 对 互 斥 锁 加 锁 ， 调 用 线程 不 安全 函 
数 ， 将 函数 返回 的 结果 复制 到 一 个 私有 的 内 存 位 置 ， 然 后 对 互 斥 锁 解 锁 。 为 了 尽 可 能 地 减 
少 对 调用 者 的 修改 ， 你 应 该 定义 一 个 线程 安全 的 包装 函数 ， 它 执行 加 锁 -复制 ， 然 后 通过 
调用 这 个 包装 函数 来 取代 所 有 对 线程 不 安全 函数 的 调用 。 例 如 ， 图 12-38 给 出 了 ctime 的 
一 个 线程 安全 的 版 本 ， 利 用 的 就 是 加 锁 -复制 技术 。 

code/conc/ctime-ts.c 


char *ctime_ts(const time_t *timep, char *privatep) 
{ 


char *sharedp; 


P(&mutex) ; 

sharedp = ctime(timep) ; 

strcpy(privatep，sharedp); /* Copy string from shared to private */ 
V(C&mutex) ; 

return privatep; 


A 
”OvoNoaonmAAwND- 


code/conc/ctime-ts.c 


图 12-38 C 标准 库 函 数 ctime 的 线程 安全 的 包装 函数 。 使 用 加 锁 -复制 技术 
调用 一 个 第 3 类 线程 不 安全 函数 


第 4 类 : 调用 线程 不 安全 函数 的 函数 。 如 果 函 数 了 调用 线程 不 安全 函数 g， 那 么 f 就 
是 线程 不 安全 的 吗 ? 不 一 定 。 如 果 g 是 第 2 类 函数 ， 即 依赖 于 跨越 多 次 调用 的 状态 ， 那 么 
也 是 线程 不 安全 的 ， 而 且 除 了 重 写 g 以 外 ， 没 有 什么 办 法 。 然 而 ， 如 果 g 是 第 1 类 或 者 
第 3 类 函数 ， 那 么 只 要 你 用 一 个 互 斥 锁 保 护 调用 位 置 和 任何 得 到 的 共享 数据 ，j 了 仍然 可 能 
是 线程 安全 的 。 在 图 12-38 中 我 们 看 到 了 一 个 这 种 情况 很 好 的 示例 ， 其 中 我 们 使 用 加 锁 - 
复制 编写 了 一 个 线程 安全 函数 ， 它 调用 了 一 个 线程 不 安全 的 函数 。 


所 有 的 函数 


12.7.2 可 重 入 性 
有 一 类 重要 的 线程 安全 函数 ， 叫 做 可 重 入 函 线程 安全 函数 


数 (reentrant function) ， 其 特点 在 于 它们 具有 这 和 
样 一 种 属性 ， 当 它们 被 多 个 线程 调用 时 ， 不 会 引 可 EAD 
用 任何 共享 数据 。 尽 管线 程 安全 和 可 重 入 有 时 会 


(不 正确 地 ?被 用 做 同义词 ， 但 是 它们 之 间 还 是 有 图 12-39 可 重 人 函数 、 线 程 安全 函数 和 线程 
清晰 的 技术 差别 ， 值 得 留意 。 图 12-39 展示 了 可 不 安全 函数 之 间 的 集合 关系 
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重 和 函数、 线程 安全 函数 和 线程 不 安全 函数 之 间 的 集合 关系 。 所 有 函数 的 集合 被 划分 成 不 
相交 的 线程 安全 和 线程 不 安全 函数 集合 。 可 重 人 函数 集合 是 线程 安全 函数 的 一 个 真子 集 。 

可 重信 函数 通常 要 比 不 可 重信 的 线程 安全 的 函数 高 效 一 些 ， 因 为 它们 不 需要 同步 操 
作 。 更 进一步 来 说 ， 将 第 2 类 线程 不 安全 函数 转化 为 线程 安全 函数 的 唯一 方法 就 是 重 写 
它 ， 使 之 变 为 可 重 人 人 的。 例如， 图 12-40 展示 了 图 12-37 中 rand 函数 的 一 个 可 重 和 的 版 
本 。 关 键 思想 是 我 们 用 一 个 调用 者 传递 进来 的 指针 取代 了 静态 的 next 变量 。 


code/conc/rand-r.c 





/* rand_r - return a pseudorandom integer on 0..32767 */ 


1 

2 int rand_r(unsigned int *nextp) 

或 ”区 

4 *nextp = *nextp * 1103515245 + 12345; 

5 return (unsigned int)(*nextp / 65536) % 32768; 
1 


code/conc/rand-r.c 


图 12-40 rand r: 图 12-37 中 的 rand 函数 的 可 重 人 版 本 


检查 某 个 函数 的 代码 并 先 验 地 断定 它 是 可 重 人 的 ， 这 可 能 吗 ? 不 幸 的 是 ， 不 一 定 能 这 
样 。 如 果 所 有 的 函数 参数 都 是 传 值 传递 的 ( 即 没 有 指针 )， 并 且 所 有 的 数据 引用 都 是 本 地 的 
自动 栈 变 量 ( 即 没有 引用 静态 或 全 局 变量 )， 那 么 函数 就 是 显 式 可 重 入 的 (explicitly reen- 
trant) ， 也 就 是 说 ， 无 论 它 是 被 如 何 调用 的 ， 都 可 以 断言 它 是 可 重 人 的。 

然而 ， 如 果 把 假设 放宽 松 一 点 ， 人 允许 显 式 可 重信 函数 中 一 些 参 数 是 引用 传递 的 ( 即 允 
许 它们 传递 指针 )， 那 么 我 们 就 得 到 了 一 个 隐 式 可 重 入 的 (implicitly reentrant) 国 数 ， 也 就 
是 说 ， 如 果 调 用 线程 小 心地 传递 指向 非 共享 数据 的 指针 ， 那 么 它 是 可 重信 人 的 。 例 如， 图 
12-40 中 的 rand r 函数 就 是 隐 式 可 重信 的 。 

我 们 总 是 使 用 术语 可 重 入 的 (reentrant) 既 包括 显 式 可 重 人 函数 也 包括 隐 式 可 重 和 信函 
数 。 然 而 ， 认 识 到 可 重信 性 有 时 既是 调用 者 也 是 被 调用 者 的 属性 ， 并 不 只 是 被 调用 者 单独 
的 属性 是 非常 重要 的 。 
证 训 练 习题 12. 12 ”图 12-38 中 的 ctime ts 函数 是 线程 安全 的 ， 但 不 是 可 重 入 的 。 请 解释 说 明 。 


12.7.3 在 线程 化 的 程序 中 使 用 已 存在 的 库 函 数 


大 多 数 Linux 图 数 ， 包 括 定 义 在 标准 C 库 中 的 函数 (例如 malloc、free、realloc、 
printf 和 scanf) 都 是 线程 安全 的 ， 只 有 一 小 部 分 是 例外 。 图 12-41 列 出 了 常见 的 例外 。 
(参考 [110] 可 以 得 到 一 个 完整 的 列表 。) strtok 函数 是 一 个 已 弃 用 的 (不 推荐 使 用 ) 函 数 。 
asctime、ctime 和 localtime 函数 是 在 不 同时 间 和 数据 格式 间 相 互 来 回转 换 时 经 常 使 用 
的 函数 。gethostbyname、gethostbyaddr 和 inet_ntoa 天 数 是 已 弃 用 的 网 络 编程 函 
数 ， 已 经 分 别 被 可 重 人 的 getaddrinfo、getnameinfo 和 inet_ntop 函数 取代 ( 见 第 11 
章 ) 。 除 了 rand 和 strtok 以 外 ， 所 有 这 些 线程 不 安全 函数 都 是 第 3 类 的 ， 它 们 返回 一 个 
指向 静态 变量 的 指针 。 如 果 我 们 需要 在 一 个 线程 化 的 程序 中 调用 这 些 函 数 中 的 某 一 个 ， 对 
调用 者 来 说 最 不 车 麻烦 的 方法 是 加 锁 - 复 制 。 然 而 ， 加 锁 - 复 制 方 法 有 许多 缺点 。 首 先 ， 额 
外 的 同步 降低 了 程序 的 速度 。 第 二 ， 像 gethostbyname 这 样 的 函数 返回 指向 复杂 结构 的 
结构 的 指针 ， 要 复制 整个 结构 层次 ， 需 要 深层 复制 (deep copy) 结 构 。 第 三 ， 加 锁 - 复 制 方 
法 对 像 rand 这 样 依赖 跨越 调用 的 静态 状态 的 第 2 类 函数 并 不 有 效 。 
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线程 不 安全 函数 线程 不 安全 类 Linux 线程 安全 版 本 
rand 2 rand_r 

strtok strtok_r 
asctime asctime_r 





ctime ctime_r 
gethostbyaddr gethostbyaddr_r 


gethostbyname gethostbyname_r 
inet_ntoa (无 ) 
localtime localtime_r 


图 12-41 常见 的 线程 不 安全 的 库 函 数 








因此 ，Linux 系统 提供 大 多 数 线程 不 安全 函数 的 可 重 人 版 本 。 可 重信 版 本 的 名 字 总 是 
以 “_r” 后 缀 结尾 。 例 如 ，asctime 的 可 重 人 版 本 就 叫做 asctime_r。 我 们 建议 尽 可 能 地 
使 用 这 些 函 数 。 


| 


当 一 个 程序 的 正确 性 依赖 于 一 个 线程 要 在 另 一 个 线程 到 达 y 点 之 前 到 达 它 的 控制 流 中 的 z 点 
时 ， 就 会 发 生 竞争 (race) 。 通 常 发 生 竞争 是 因为 程序 员 假 定 线程 将 按照 某 种 特殊 的 轨迹 线 穿 过 执行 
状态 空间 ， 而 忘记 了 另 一 条 准则 规定 : 多 线程 的 程序 必须 对 任何 可 行 的 轨迹 线 都 正确 工作 。 

例子 是 理解 竞争 本 质 的 最 简单 的 方法 。 让 我 们 来 看 看 图 12-42 中 的 简单 程序 。 主 线程 创 
建 了 四 个 对 等 线程 ， 并 传递 一 个 指向 一 个 唯一 的 整数 ID 的 指针 到 每 个 线程 。 每 个 对 等 线程 
复制 它 的 参数 中 传递 的 ID 到 一 个 局 部 变量 中 (第 22 行 )， 然 后 输出 一 个 包含 这 个 ID 的 信息 。 
它 看 上 去 足够 简单 ， 但 是 当 我 们 在 系统 上 运行 这 个 程序 时 ， 我 们 得 到 以 下 不 正确 的 结果 : 

linux> ./race 

Hello from thread 1 

Hello from thread 3 

* Hello from thread 2 
Hello from thread 3 


code/conc/race.c 
/* WARNING: This code is buggy! */ 


1 

2  #include "csapp.h" 

3 #define N 4 

4 

5 void *thread(void *vargp); 

6 

7 int main() 

全 [有 绚 

9 pthread_t tid[N]; 

10 Lit Ts 

加 

12 for (i = 0; i < N; i++) 

13 Pthread_create(&tid[i], NULL, thread, &i); 
14 for (i = 0; i < N; i++) 

15 Pthread_join(tid[i] , NULL); 
16 exit (0); 

17 } 


图 12-42 一 个 具有 竞争 的 程序 
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19  /* Thread routine */ 
20 void *thread(void *vargp) 


21 { 

22 int myid = *((int *)vargp); 

23 printf ("Hello from thread %d\n", myid); 
24 return NULL ; 

小 上 


code/conc/race.c 


图 12-42 ( 续 ) 


问题 是 由 每 个 对 等 线程 和 主线 程 之 间 的 竞争 引起 的 。 你 能 发 现 这 个 竞争 吗 ? 下 面 是 发 . 
生 的 情况 。 当 主线 程 在 第 13 行 创建 了 一 个 对 等 线程 ， 它 传递 了 一 个 指向 本 地 栈 变量 i 的 
指针 。 在 此 时 ， 竞 争 出 现在 下 一 次 在 第 12 行 对 i 加 1 和 第 22 行 参数 的 间接 引用 和 赋值 之 
间 。 如 果 对 等 线程 在 主线 程 执行 第 12 行 对 i 加 1 之 前 就 执行 了 第 22 行 ， 那 么 myid 变量 
就 得 到 正确 的 ID。 否则， 它 包 含 的 就 会 是 其 他 线程 的 ID。 令 人 惊慌 的 是 ， 我 们 是 否 得 到 
正确 的 答案 依赖 于 内 核 是 如 何 调度 线程 的 执行 的 。 在 我 们 的 系统 中 它 失败 了 ， 但 是 在 其 他 
系统 中 ， 它 可 能 就 能 正确 工作 ， 让 程序 员 “ 幸 福地 ”察觉 不 到 程序 的 严重 错误 。 - 

为 了 消除 竞争 ， 我 们 可 以 动态 地 为 每 个 整数 ID 分 配 一 个 独立 的 块 ， 并 且 传 递 给 线程 
例 程 一 个 指向 这 个 块 的 指针 ， 如 图 12-43 所 示 (第 12~~14 行 )。 请 注意 线程 例 程 必须 释放 
这 些 块 以 避免 内 存 泄漏 。 

code/conc/norace.c 

#include "csapp.h" 


1 
2 #define N 4 

E 

4 void *thread(void *vargp); 

5 

6 int main() 

8 pthread_t tid[N]; 

9 int i, *ptr; 

10 

计 for (i = 0; i < N; i++) { 

稻 ptr = Malloc(sizeof (int)); 
入 *ptE = 工 ; 

14 Pthread_create(&tid[i], NULL, thread, ptr); 
多 

16 for (i = 0; i < N; i++) 

17 Pthread_join(tid[i] ，NULL) ; 
18 exit(0); 

19 } 


21 /* Thread routine */ 
22 void *thread(void *vargp) 


23 { 

24 int myid = *((int *)vargp); 

25 Free(vargp); 

26 printf ("Hello from thread %d\n", myid); 
27 return NULL; 

28 } 


code/conc/norace.c 


图 12-43 图 12-42 中 程序 的 一 个 没有 竞争 的 正确 版 本 
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当 我 们 在 系统 上 运行 这 个 程序 时 ， 现 在 得 到 了 正确 的 结果 : 


linux> ./norace 

Hello from thread 0 
Hello from thread 1 
Hello from thread 2 
Hello from thread 3 


练习 题 12. 13 在 图 12-43 中 ， 我 们 可 能 想 要 在 主线 程 中 的 第 14 行 后 立即 释放 已 分 配 
的 内 存 块 ， 而 不 是 在 对 等 级 程 中 娩 放 它 。 但 是 这 会 是 个 坏 注 意 。 为 什么 ? 
攻 练习 题 12. 14 
A. 在 图 12-43 中 ， 我 们 通过 为 每 个 整数 ID 分 配 一 个 独立 的 块 来 消除 竞争 。 给 出 一 个 
不 调用 malloc 或 者 free 函数 的 不 同 的 方法 。 
B. 这 种 方法 的 利弊 是 什么 ? 


12.7.5 死 锁 
信号 量 引 入 了 一 种 潜在 的 令 人 厌恶 的 运行 时 错误 ， 叫 做 死 锁 (deadlock)， 它 指 的 是 一 
组 线程 被 阻塞 了 ， 等 待 一 个 永远 也 不 会 为 真 的 条 件 。 进 度 图 对 于 理解 死 锁 是 一 个 无 价 的 工 
具 。 例 如 ， 图 12-44 展示 了 一 对 用 两 个 信和 号 量 来 实现 互 斥 的 线程 的 进程 图 。 从 这 幅 图 中 ， 
我 们 能 够 得 到 一 些 关 于 死 锁 的 重要 知识 : 
线程 2 


无 死 锁 的 轨迹 
ei 


Vt) 


P(s) 


PO 





线程 1 
. P) -PD a Vs) 和 


图 12-44 一 个 会 死 锁 的 程序 的 进度 图 


e 程序 员 使 用 P 和 V 操作 顺序 不 当 ， 以 至 于 两 个 信号 量 的 禁止 区 域 重 于。 如 果 某 个 执 
行 轨迹 线 碰 巧 到 达 了 死 锁 状态 4， 那 么 就 不 可 能 有 进一步 的 进展 了 ， 因 为 重 倒 的 禁 
止 区 域 阻塞 了 每 个 合法 方向 上 的 进展 。 换 句 话 说， 程序 死 锁 是 因为 每 个 线程 都 在 等 
待 其 他 线程 执行 一 个 根 不 可 能 发 生 的 V 操作 。 

e@ 重 释 的 禁止 区 域 引起 了 一 组 称 为 死 锁 区 域 (deadlock region) 的 状态 。 如 果 一 个 轨迹 
线 碰巧 到 达 了 一 个 死 锁 区 域 中 的 状态 ， 那 么 死 锁 就 是 不 可 避免 的 了 。 轨 迹 线 可 以 进 
入 死 锁 区 域 ， 但 是 它们 不 可 能 离开 。 
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@ 和 死 锁 是 一 个 相当 困难 的 问题 ， 因 为 它 不 总 是 可 预测 的 。 一 些 幸 运 的 执行 轨迹 线 将 绕 开 死 

锁 区 域 ， 而 其 他 的 将 会 陷入 这 个 区 域 。 图 12-44 展示 了 每 种 情况 的 一 个 示例 。 对 于 程序 

员 来 说 ， 这 其 中 隐 含 的 着 实 令 人 惊慌 。 你 可 以 运行 一 个 程序 1000 次 不 出 任何 问题 ， 但 是 

下 一 次 它 就 死 锁 了 。 或 者 程序 在 一 台 机 器 上 可 能 运行 得 很 好 ， 但 是 在 另外 的 机 器 上 就 会 

死 锁 。 最 糟糕 的 是 ， 错 误 常 常 是 不 可 重复 的 ， 因 为 不 同 的 执行 有 不 同 的 轨迹 线 。 

程序 死 锁 有 很 多 原因 ， 要 避免 死 锁 一 般 而 言 是 很 困难 的 。 然 而 ， 当 使 用 二 元 信和 号 量 
实现 互 斥 时 ， 如 图 12-44 所 示 ， 你 可 以 应 用 下 面 的 简单 而 有 效 的 规则 来 避免 死 锁 ， 

互 斥 锁 加 锁 顺 序 规则 : 给 定 所 有 互 斥 操作 的 一 个 全 序 ， 如 果 每 个 线程 都 是 以 一 种 顺序 
获得 互 斥 锁 并 以 相反 的 顺序 释放 ， 那 么 这 个 程序 就 是 无 死 锁 的 。 

例如 ， 我 们 可 以 通过 这 样 的 方法 来 解决 图 12-44 中 的 死 锁 问题 : 在 每 个 线程 中 先 对 s 
加 锁 ， 然 后 再 对 t 加 锁 。 图 12-45 展示 了 得 到 的 进度 图 。 

线程 2 


Vs) 


Vt) 


P(t) 


P(s) 





线程 1 


图 12-45 ”一 个 无 死 锁 程序 的 进度 图 


区 对 练习 题 12. 15 思考 下 面 的 程序 ， 它 试图 使 用 一 对 信号 量 来 实现 互 斥 。 
初始 时 : 8 = 1,t 上 = 0. 


线程 1: 线程 2: 
P(s) ; Pks) ; 
V(s); V(s); 
P(t); P(t); 
V(t); V(t); 


A. 画 出 这 个 程序 的 进度 图 。 

B. 它 总 是 会 死 锁 吗 ? 

C. 如 果 是 ， 那 么 对 初始 信号 量 的 值 做 哪些 简单 的 改变 就 能 消除 这 种 潜在 的 死 锁 呢 ? 
D. 画 出 得 到 的 无 死 锁 程 序 的 进度 图 。 


12.8 水 营 


一 个 并 发 程序 是 由 在 时 间 上 重合 的 一 组 逻辑 流 组 成 的 。 在 这 一 章 中 ,我们 学 习 了 三 种 不 同 的 构建 并 
发 程序 的 机 制 : 进程 、I/O 多 路 复 用 和 线程 。 我 们 以 一 个 并 发 网 络 服务 器 作为 贯穿 全 章 的 应 用 程序 。 
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进程 是 由 内 核 自动 调度 的 ， 而 且 因 为 它们 有 各 自 独立 的 虚拟 地 址 空间 ， 所 以 要 实现 共享 数据 ， 必 须 
要 有 显 式 的 IPC 机 制 。 事件 驱 动 程序 创建 它们 自己 的 并 发 逻辑 流 ， 这 些 逻 辑 流 被 模型 化 为 状态 机 ， 用 
1/O 多 路 复 用 来 显 式 地 调度 这 些 流 。 因 为 程序 运行 在 一 个 单一 进程 中 ， 所 以 在 流 之 间 共 享 数据 速度 很 快 而 
且 很 容易 。 线 程 是 这 些 方法 的 混合 。 同 基于 进程 的 流 一 样 ， 线 程 也 是 由 内 核 自动 调度 的 。 同 基于 I/O 多 
路 复 用 的 流 一 样 ， 线 程 是 运行 在 一 个 单一 进程 的 上 下 文中 的 ， 因 此 可 以 快速 而 方便 地 共享 数据 。 

无 论 哪 种 并 发 机 制 ， 同 步 对 共享 数据 的 并 发 访问 都 是 一 个 困难 的 问题 。 提 出 对 信号 量 的 P 和 V 操作 
就 是 为 了 帮助 解决 这 个 问题 。 信 号 量 操作 可 以 用 来 提供 对 共享 数据 的 互 斥 访问 ， 也 对 诸如 生产 者 -消费 者 
程序 中 有 限 缓冲 区 和 读者 - 写 者 系统 中 的 共享 对 象 这 样 的 资源 访问 进行 调度 。 一 个 并 发 预 线程 化 的 echo 
服务 器 提供 了 信号 量 使 用 场景 的 很 好 的 例子 。 

并 发 也 引入 了 其 他 一 些 困 难 的 问题 。 被 线程 调用 的 函数 必须 具有 一 种 称 为 线程 安全 的 属性 。 我 们 定 
义 了 四 类 线程 不 安全 的 函数 ， 以 及 一 些 将 它们 变 为 线程 安全 的 建议 。 可 重 人 函数 是 线程 安全 函数 的 一 个 
真子 集 ， 它 不 访问 任何 共享 数据 。 可 重 人 函数 通常 比 不 可 重 人 函数 更 为 有 效 ， 因 为 它们 不 需要 任何 同步 
原 语 。 竞 争 和 死 锁 是 并 发 程序 中 出 现 的 另 一 些 困 难 的 问题 。 当 程序 员 错 误 地 假设 逻辑 流 该 如 何 调度 时 ， 
就 会 发 生 竞 争 。 当 一 个 流 等 待 一 个 永远 不 会 发 生 的 事件 时 ， 就 会 产生 死 锁 。 


参考 文献 说 明 


信号 量 操作 是 Dijkstra 提出 的 [31]。 进 度 图 的 概念 是 Coffman [23j 提 出 的 ， 后 来 由 Carson 和 Reyn- 
olds [16] 形 式 化 的 。Courtois 等 人 [25] 提 出 了 读者 - 写 者 问题 。 操 作 系统 教科 书 更 详细 地 描述 了 经 典 的 同 
步 问 题 ， 例 如 哲学 家 进餐 问题 、 打 睹 睡 的 理发 师 问题 和 吸烟 者 问题 [102，106，113]。Butenhof 的 书 
[15] 对 Posix 线程 接口 有 全 面 的 描述 。Birrell [7] 的 论文 对 线程 编程 以 及 线程 编程 中 容易 遇 到 的 问题 做 了 
很 好 的 介绍 。Reinders 的 书 [90] 描 述 了 C/C++ 库 ， 简 化 了 线程 化 程序 的 设计 和 实现 。 有 一 些 课 本 讲述 了 
多 核 系统 上 并 行 编程 的 基础 知识 [47，71]。Pugh 描述 了 Java 线程 通过 内 存 进行 交互 的 方式 的 缺陷 ， 并 
提出 了 替代 的 内 存 模型 [88]。Gustafson 提出 了 替代 强 扩展 的 弱 扩 展 加 速 模型 [43] 。 


家 庭 作业 


* 12. 16 ”编写 hello.c( 图 12-13) 的 一 个 版 本 ， 它 创建 和 回收 个 可 结合 的 对 等 线程 ， 其 中 n 是 一 个 命令 
行 参数 。 
* 12.17 A. 图 12-46 中 的 程序 有 一 个 bug。 要 求 线程 睡眠 一 秒 钟 ， 然 后 输出 一 个 字符 串 。 然 而 ， 当 在 我 们 
的 系统 上 运行 它 时 ， 却 没有 任何 输出 。 为 什么 ? 





code/conc/hellobug.c 
1 /* WARNING: This code is buggy! */ 
2 #include "csapp.h" 
3 void *thread(void *vargp); 
4 
5 int main() 
-i 
7 pthread_t tid; 
8 
9 Pthread_create(&tid, NULL, thread, NULL); 
10 exit (0); 
漳 } 
12 
13 /* Thread routine */ 
14 void *thread(void *vargp) 
WW 所 
16 Sleep(1); 
17 printf ("Hello, world!\n"); 
18 return NULL; 
19 小 
code/conc/hellobug.c 


图 12-46 ”练习 题 12. 17 的 有 bug 的 程序 
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** 12. 27 


* 12. 28 


* 12. 29 
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B. 你 可 以 通过 用 两 个 不 同 的 Pthreads 函数 调用 中 的 一 个 替代 第 10 行 中 的 exit 函数 来 改正 这 个 
错误 。 选 哪 一 个 呢 ? 

用 图 12-21 中 的 进度 图 ， 将 下 面 的 轨迹 线 分 类 为 安全 或 者 不 安全 的 。 

RBH Ts Uiv Thy Dis Ss Ws Bi MW 

了 Hz, Hi, By Us Ss Ls Ty, Us SS» TT 

G: Hi: Tns Hoes Low Us Sys Urs Ss Tis Ts 

图 12-26 中 第 一 类 读者 - 写 者 问题 的 解答 给 予 读 者 的 是 有 些 弱 的 优先 级 ， 因 为 读者 在 离开 它 的 临 

界 区 时 ， 可 能 会 重启 一 个 正在 等 待 的 写 者 ， 而 不 是 一 个 正在 等 待 的 读者 。 推 导出 一 个 解答 ， 它 给 

予 读者 更 强 的 优先 级 ， 当 写 者 离开 它 的 临界 区 的 时 候 ， 如 果 有 读者 正在 等 待 的 话 ， 就 总 是 重启 一 

个 正在 等 待 的 读者 。 

考虑 读者 - 写 者 问题 的 一 个 更 简单 的 变种 ， 即 最 多 只 有 N 个 读者 。 推 导出 一 个 解答 ， 给 予 读者 和 

写 者 同等 的 优先 级 ， 即 等 待 中 的 读者 和 写 者 被 赋予 对 资源 访问 的 同等 的 机 会 。 提 示 : 你 可 以 用 一 

个 计数 信号 量 和 一 个 互 斥 锁 来 解决 这 个 问题 。 

推导 出 第 二 类 读者 - 写 者 问题 的 一 个 解答 ， 在 此 写 者 的 优先 级 高 于 读者 。 

检查 一 下 你 对 select 函数 的 理解 ， 请 修改 图 12-6 中 的 服务 器 ， 使 得 它 在 主 服务 器 的 每 次 迭代 中 

最 多 只 回 送 一 个 文本 行 。 

图 12-8 中 的 事件 驱动 并 发 echo 服务 器 是 有 缺陷 的 ， 因 为 一 个 恶意 的 客户 端 能 够 通过 发 送 部 分 的 

文本 行 ， 使 服务 器 拒绝 为 其 他 客户 端 服务 。 编 写 一 个 改进 的 服务 器 版 本 ， 使 之 能 够 非 阻塞 地 处 理 

这 些 部 分 文本 行 。 

RIO IO 包 中 的 函数 (10. 5 节 ) 都 是 线程 安全 的 。 它 们 也 都 是 可 重 人 函数 吗 ? 

在 图 12-28 中 的 预 线程 化 的 并 发 echo 服务 器 中 ， 每 个 线程 都 调用 echo_cnt 函数 (图 12-29) 。 

echo_cnt 是 线程 安全 的 吗 ? 它 是 可 重 人 的 吗 ? 为 什么 是 或 为 什么 不 是 呢 ? 

用 加 锁 - 复 制 技术 来 实现 gethostbyname 的 一 个 线程 安全 而 又 不 可 重 人 的 版 本 ， 称 为 gethost - 

byname_ ts。 一 个 正确 的 解答 是 使 用 由 互 斥 锁 保 护 的 hostent 结构 的 深层 副本 。 

一 些 网 络 编程 的 教科 书 建议 用 以 下 的 方法 来 读 和 写 套 接 字 : 和 客户 端 交互 之 前 ， 在 同一 个 打开 的 

已 连接 套 接 字 描 述 符 上 ， 打 开 两 个 标准 I/O 流 ， 一 个 用 来 读 ， 一 个 用 来 写 : 

FILE *fpin, *fpout; 


fpin = fdopen(sockfd, "r"); 
fpout = fdopen(sockfd, "w"); 


当 服 务 器 完成 和 客户 端的 交互 之 后 ， 像 下 面 这 样 关闭 两 个 流 : 


fclose(fpin) ; 
fclose(fpout) ; 

然而 ， 如 果 你 试图 在 基于 线程 的 并 发 服务 器 上 尝试 这 种 方式 ， 将 制造 一 个 致命 的 竞争 条 件 。 
请 解释 。 


在 图 12-45 中 ， 将 两 个 V 操作 的 顺序 交换 ， 对 程序 死 锁 是 否 有 影响 ? 通过 画 出 四 种 可 能 情况 的 进 
度 图 来 证 明 你 的 答案 : 























下 面 的 程序 会 死 锁 吗 ? 为 什么 会 或 者 为 什么 不 会 ? 
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s 12.30 


*# 12. 31 


** 12. 32 


## 12. 33 


** 12. 34 
** 12. 35 


** 12. 36 


初始 时 a=1,b=1,c=1 


线程 1: 线程 2: 

P(a) ; P(c) ; 

P(b) ; P(b); 

V(b); V(b); 

Plc); WCG 

V(Cc) ; 

V(a); 

考虑 下 面 这 个 会 死 锁 的 程序 。 

初始 时 a=1,b=1,c=1 

线程 1: 线程 2: 线程 3: 
P(a) ; P(c) ; P(c) ; 
P(b); P(b); V(c); 
V(b); V(b); P(b); 
ple); V(c); P(a) ; 
V(Cc) ; P(a) ; V(a); 
V(a); V(a); V(b); 


A. 列 出 每 个 线程 同时 占用 的 一 对 互 斥 锁 。 

B. 如 果 a<b<c， 那 么 哪个 线程 违背 了 互 斥 锁 加 锁 顺 序 规则 ? 

C. 对 于 这 些 线程 ， 指 出 一 个 新 的 保证 不 会 发 生死 锁 的 加 锁 顺 序 。 

实现 标准 MO 函数 fgets 的 一 个 版 本 ， 叫 做 tfgets， 假 如 它 在 5 秒 之 内 没有 从 标准 输入 上 接收 到 
一 个 输入 行 ， 那 么 就 超时 ， 并 返回 一 个 NULL 指针 。 你 的 函数 应 该 实现 在 一 个 叫做 tfgets-proc.c 
的 包 中 ， 使 用 进程 、 信 号 和 非 本 地 跳 转 。 它 不 应 该 使 用 Linux 的 alarm 函数 。 使 用 图 12-47 中 的 驱 
动 程序 测试 你 的 结果 。 


code/conc/tfgets-main.c 
#include "csapp.h" 


char *tfgets(char *s, int size, FILE *stream); 


int main() 
{ 
char buf [MAXLINE] ; 


if (tfgets(buf, MAXLINE, stdin) == NULL) 
printf ("BOOM!\n"); 

else 
printf("%s", buf); 


exit(0); 


i dl hl i i 
wwWN2 O00PNO mWwWN 一 


code/conc/tfgets-main.c 


图 12-47 ”家 庭 作业 题 12. 31~12. 33 的 驱动 程序 


使 用 select 函数 来 实现 练习 题 12. 31 中 tfgets 函数 的 一 个 版 本 。 你 的 函数 应 该 在 一 个 叫做 tf - 
gets- select.c 的 包 中 实现 。 用 练习 题 12. 31 中 的 驱动 程序 测试 你 的 结果 。 你 可 以 假定 标准 输入 
被 赋值 为 描述 符 0。 

实现 练习 题 12. 31 中 tfgets 函数 的 一 个 线程 化 的 版 本 。 你 的 函数 应 该 在 一 个 叫做 tfgets- 
thread.c 的 包 中 实现 。 用 练习 题 12. 31 中 的 驱动 程序 测试 你 的 结果 。 

编写 一 个 NXM 抢 阵 乘法 核心 函数 的 并 行 线程 化 版 本 。 比 较 它 的 性 能 与 顺序 的 版 本 的 性 能 。 
实现 一 个 基于 进程 的 TINY Web 服务 器 的 并 发 版 本 。 你 的 解答 应 该 为 每 一 个 新 的 连接 请 求 创建 一 
个 新 的 子 进程 。 使 用 一 个 实际 的 Web 浏览 器 来 测试 你 的 解答 。 

实现 一 个 基于 IO 多 路 复 用 的 TINY Web 服务 器 的 并 发 版 本 。 使 用 一 个 实际 的 Web 浏览 器 来 测 
试 你 的 解答 。 
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举 12. 37 实现 一 个 基于 线程 的 TINY Web 服务 器 的 并 发 版 本 。 你 的 解答 应 该 为 每 一 个 新 的 连接 请 求 创建 一 


个 新 的 线程 。 使 用 一 个 实际 的 Web 浏览 器 来 测试 你 的 解答 。 

实现 一 个 TINY Web 服务 器 的 并 发 预 线程 化 的 版 本 。 你 的 解答 应 该 根据 当前 的 负载 ， 动 态 地 增加 

或 减少 线程 的 数目 。 一 个 策略 是 当 缓 冲 区 变 满 时 ， 将 线程 数量 翻 倍 ， 而 当 缓 冲 区 变 为 空 时 ， 将 线 

程 数目 减 半 。 使 用 一 个 实际 的 Web 浏览 器 来 测试 你 的 解答 。 

Web 代理 是 一 个 在 Web 服务 器 和 浏览 器 之 间 扮 演 中 间 角 色 的 程序 。 浏 览 器 不 是 直接 连接 服务 器 

以 获取 网 页 ， 而 是 与 代理 连接 ， 代 理 再 将 请 求 转发 给 服务 器 。 当 服务 器 响应 代理 时 ， 代 理 将 响应 

发 送 给 浏览 器 。 为 了 这 个 试验 ， 请 你 编写 一 个 简单 的 可 以 过 滤 和 记录 请 求 的 Web 代理 : 

A. 试验 的 第 一 部 分 中 ， 你 要 建立 以 接收 请 求 的 代理 ， 分 析 HTTP， 转 发 请 求 给 服务 器 ,并 且 返 
回 结果 给 浏览 器 。 你 的 代理 将 所 有 请 求 的 URL 记录 在 磁盘 上 一 个 日 志文 件 中 ， 同 时 它 还 要 阻 
塞 所 有 对 包含 在 磁盘 上 一 个 过 滤 文 件 中 的 URL 的 请 求 。 

B. 试验 的 第 二 部 分 中 ， 你 要 升级 代理 ， 它 通过 派生 一 个 独立 的 线程 来 处 理 每 一 个 请 求 ， 使 得 代 
理 能 够 一 次 处 理 多 个 打开 的 连接 。 当 你 的 代理 在 等 待 远程 服务 器 响应 一 个 请 求 使 它 能 服务 于 
一 个 浏览 器 时 ， 它 应 该 可 以 处 理 来 自 另 一 个 浏览 器 未 完成 的 请 求 。 

使 用 一 个 实际 的 Web 浏览 器 来 检验 你 的 解答 。 


练习 题 答案 


者 | 


:2 


股 . 吕 


12.4 


当 父 进程 派生 子 进程 时 ， 它 得 到 一 个 已 连接 描述 符 的 副本 ， 并 将 相关 文件 表 中 的 引用 计数 从 1 增 
加 到 2。 当 父 进 程 关闭 它 的 描述 符 副 本 时 ， 引 用 计数 就 从 2 减少 到 1。 因 为 内 核 不 会 关闭 一 个 文 
件 ， 直 到 文件 表 中 它 的 引用 计数 值 变 为 零 ， 所 以 子 进程 这 边 的 连接 端 将 保持 打开 。 

当 一 个 进程 因为 某 种 原因 终止 时 ， 内 核 将 关闭 所 有 打开 的 描述 符 。 因 此 ， 当 子 进程 退出 时 ， 它 的 
已 连接 文件 描述 符 的 副本 也 将 被 自动 关闭 。 

回想 一 下 ， 如 果 一 个 从 描述 符 中 读 一 个 字 节 的 请 求 不 会 阻塞 ， 那么 这 个 描述 符 就 准备 好 可 以 读 了 。 
假如 EOF 在 一 个 描述 符 上 为 真 ， 那么 描述 符 也 准备 好 可 读 了 ， 因 为 读 操作 将 立即 返回 一 个 零 返 回 
码 ， 表 示 EOF。 因 此 ,键入 Ctrl 十 D 会 导致 select 函数 返回 ， 准 备 好 的 集合 中 有 描述 符 0。 
因为 变量 pool.read_set 既 作 为 输入 参数 也 作为 输出 参数 ， 所 以 我 们 在 每 一 次 调用 select 之 前 
都 重新 初始 化 它 。 在 输入 时 ， 它 包含 读 集合 。 在 输出 ， 它 包含 准备 好 的 集合 。 

因为 线程 运行 在 同一 个 进程 中 ， 它 们 都 共享 相同 的 描述 符 表 。 无 论 有 多 少 线程 使 用 这 个 已 连接 描 
述 符 ， 这 个 已 连接 描述 符 的 文件 表 的 引用 计数 都 等 于 1。 因 此 ， 当 我 们 用 完 它 时 ， 一 个 close 操 
作 就 足以 释放 与 这 个 已 连接 描述 符 相 关 的 内 存 资源 了 。 

这 里 的 主要 的 思想 是 ， 栈 变量 是 私有 的 ， 而 全 局 和 静态 变量 是 共享 的 。 诸 如 cnt 这 样 的 静态 变量 
有 点 小 麻烦 ， 因 为 共享 是 限制 在 它们 的 函数 范围 内 的 一 一 在 这 个 例子 中 ， 就 是 线程 例 程 。 

A. 下 面 就 是 这 张 表 : 


变量 实例 








被 对 等 线程 0 引用 ? 被 对 等 线程 1 引用 ? 


被 主线 程 引 用 ? 








上 王 
在 





























蕊 | 并 | 并 | 蕊 | 并 | 并 
上 











说 明 : 

@ ptr: 一 个 被 主线 程 写 和 被 对 等 线程 读 的 全 局 变量 。 

@ cnt: 一 个 静态 变量 ， 在 内 存 中 只 有 一 个 实例 ， 被 两 个 对 等 线程 读 和 写 。 

@ i.m: 一 个 存储 在 主线 程 栈 中 的 本 地 自动 变量 。 虽 然 它 的 值 被 传递 给 对 等 线程 ， 但 是 对 等 线 
程 也 绝 不 会 在 栈 中 引用 它 ， 因 此 它 不 是 共享 的 。 
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@ msgs.m: 一 个 存储 在 主线 程 栈 中 的 本 地 自动 变量 ,被 两 个 对 等 线程 通过 ptr 间接 地 引用 。 
@ myid.0 和 myid.1: 一 个 本 地 自动 变量 的 实例 ， 分 别 驻 留 在 对 等 线程 0 和 线程 1 的 栈 中 。 
B. 变量 ptr、cnt 和 msgs 被 多 于 一 个 线程 引用 ， 因 此 它们 是 共享 的 。 


12.7 这 里 的 重要 思想 是 ， 你 不 能 假设 当 内 核 调度 你 的 线程 时 会 如 何 选择 顺序 。 


12. 














步骤 线程 指令 acd %edxo, cnt 
1 1 Hi Es = 0 
1 y 0 二 0 
3 2 Hy = = 0 
4 六 区 = 0 0 
5 名 U, 二 1 0 
6 3 Sy = 1 1 
1 Ui 1 一 1 
8 1 SI 1 一 1 
9 1 硬 1 二 1 
10 2 元 es 1 1 





变量 cnt 最 终 有 一 个 不 正确 的 值 1。 

这 道 题 简单 地 测试 你 对 进度 图 中 安全 和 不 安全 轨迹 线 的 理解 。 像 A 和 C 这 样 的 轨迹 线 绕 开 了 临界 

区 ， 是 安全 的 ， 会 产生 正确 的 结果 。 

A Hs 1 全 的 

B. Hi;, L;，Hi, Li Ul， Si1， Ti，U;，S:;，T,:; 不 安全 的 

Gir Hs La Uss Sr Ley Dns Gn Tis Trg 的 

A. p= 二 1，c 二 1, nn 之 1: 是 ， 互 斥 锁 是 需要 的 ， 因 为 生产 者 和 消费 者 会 并 发 地 访问 缓冲 区 。 

B. p= 二 1，c 二 1，n 二 1: 不 是 ， 在 这 种 情况 中 不 需要 互 斥 锁 信 号 量 ， 因 为 一 个 非 空 的 缓冲 区 就 等 于 
满 的 缓冲 区 。 当 缓冲 区 包含 一 个 项 目 时 ， 生 产 者 就 被 阻塞 了 。 当 缓冲 区 为 空 时， 消费 者 就 被 阻 
塞 了 。 所 以 在 任意 时 刻 ， 只 有 一 个 线程 可 以 访问 缓冲 区 ， 因 此 不 用 互 斥 锁 也 能 保证 互 斥 。 

C. p 之 1，c 之 1, n==1: 不 是 ， 在 这 种 情况 中 ， 也 不 需要 互 斥 锁 ， 原 因 与 前 面 一 种 情况 相同 。 

假设 一 个 特殊 的 信号 量 实现 为 每 一 个 信号 量 使 用 了 一 个 LIFO 的 线程 栈 。 当 一 个 线程 在 P 操作 中 

阻塞 在 一 个 信号 量 上 ， 它 的 ID 就 被 压 人 栈 中 。 类 似 地 ，V 操作 从 栈 中 弹出 栈 顶 的 线程 ID， 并 重 

启 这 个 线程 。 根 据 这 个 栈 的 实现 ， 一 个 在 它 的 临界 区 中 的 竞争 的 写 者 会 简单 地 等 待 ， 直 到 在 它 释 

放 这 个 信号 量 之 前 另 一 个 写 者 阻塞 在 这 个 信号 量 上 。 在 这 种 场景 中 ， 当 两 个 写 者 来 回 地 传递 控制 

权时 ， 正 在 等 待 的 读者 可 能 会 永远 地 等 待 下 去 。 

注意 ， 虽 然 用 FIFO 队列 而 不 是 用 LIFO 更 符合 直觉 ， 但 是 使 用 LIFO 的 栈 也 是 对 的 ， 而 且 也 没 

有 违反 P 和 V 操作 的 语义 。 

这 道 题 简单 地 检查 你 对 加 速 比 和 并 行 效率 的 理解 : 











加 速 比 (5,) 
效率 ( 玉 ) 








ctime ts 函数 不 是 可 重信 人 函数， 因为 每 次 调用 都 共享 相同 的 由 gethostbyname 函数 返回 的 static 变 
量 。 然 而 ， 它 是 线程 安全 的 ， 因 为 对 共享 变量 的 访问 是 被 P 和 V 操作 保护 的 ， 因 此 是 互 斥 的 。 

如 果 在 第 14 行 调用 了 pthread_create 之 后 ， 我 们 立即 释放 块 ， 那 么 将 引入 一 个 新 的 竞争 ， 这 
次 竞争 发 生 在 主线 程 对 free 的 调用 和 线程 例 程 中 第 24 行 的 赋值 语句 之 间 。 

A. 另 一 种 方法 是 直接 传递 整数 i， 而 不 是 传递 一 个 指向 i 的 指针 : 


for (i = 0; i < N; i++) 
Pthread_create(&tid[i], NULL, thread, (void *)i); 
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在 线程 例 程 中 ,我们 将 参数 强制 转换 成 一 个 int 类 型 ， 并 将 它 赋 值 给 myid: 


int myid = (int) vargp; 


B. 优点 是 它 通过 消除 对 malloc 和 free 的 调用 降低 了 开销 。 一 个 明显 的 缺点 是 ， 它 假设 指针 至 
少 和 int 一 样 大 。 即 便 这 种 假设 对 于 所 有 的 现代 系统 来 说 都 为 真 ， 但 是 它 对 于 那些 过 去 遗留 
下 来 的 或 今后 的 系统 来 说 可 能 就 不 为 真 了 。 
12. 15 A. 原始 的 程序 的 进度 图 如 图 12-48 所 示 。 
线程 2 


Wi) 


P(t) 


Vs) 





线程 1 
Pls) 1-.. Vs) +.. PO “VO 


图 12-48 一 个 有 死 锁 的 程序 的 进度 图 


B. 因为 任何 可 行 的 轨迹 最 终 都 陷入 死 锁 状态 中 ， 所 以 这 个 程序 总 是 会 死 锁 。 
C. 为 了 消除 潜在 的 死 锁 ， 将 二 元 信号 量 七 初始 化 为 1 而 不 是 0。 
D. 改 成 后 的 程序 的 进度 图 如 图 12-49 所 示 。 

线程 2 


Vz) 


P(t) 


Vs) 





线程 1 


Pe) 5 Ve) 5 PO … 了 0 
图 12-49 改正 后 的 无 死 锁 的 程序 的 进度 图 
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错误 处 理 


序 员 应 该 总 是 检查 系统 级 函数 返回 的 错误 代码 。 有 许多 细微 的 方式 会 导致 出 现 错 
误 ， 只 有 使 用 内 核能 够 提供 给 我 们 的 状态 信息 才能 理解 为 什么 有 这 样 的 错误 。 J 
程序 员 往 往 不 愿意 进行 错误 检查 ， 因 为 这 使 他 们 的 代码 变 得 很 庞大 ， 将 一 行 代码 变 成 一 
多 行 的 条 件 语句 。 错 误 检 查 也 是 很 令 人 迷惑 的 ， 国 兴 而 问 交 放 以 而 间 的 方式 二 沁 代 涡 。 

在 编写 本 书 时 ， 我们 面临 类 似 的 问题 。 一 方面 ,我 们 希望 代码 示例 阅读 起 来 简洁 简 
单 ; 另 一 方面 ， 我 们 又 不 希望 给 学 生 们 一 个 错误 的 印象 ， 以 为 可 以 省 略 错误 检查 。 为 了 解 
决 这 些 问题 ， 我 们 采用 了 一 种 基于 错误 处 理 包 装 函数 (error-handling wrapper) 的 方法 ， 这 
是 由 W. Richard Stevens 在 他 的 网 络 编程 教材 L110] 中 最 先 提 出 的 。 

其 思想 是 ， 给 定 某 个 基本 的 系统 级 函数 foo， 我 们 定义 一 个 有 相同 参数 、 只 不 过 开头 
字母 大 写 了 的 包装 函数 Foo。 包 装 函 数 调用 基本 函数 并 检查 错误 。 如 果 包 装 函 数 发 现 了 错 
误 ， 那么 它 就 打印 一 条 信息 并 终止 进程 。 否 则 ， 它 返回 到 调用 者 。 注 意 ， 如 果 没 有 错误 ， 
包装 函数 的 行为 与 基本 函数 完全 一 样 。 换 句 话 说 ， 如 果 程 序 使 用 包装 函数 运行 正确 ， 那 么 
我 们 把 每 个 包装 函数 的 第 一 个 字母 小 写 并 重新 编译 ， 也 能 正确 运行 。 

包装 函数 被 封装 在 一 个 源 文件 (csapp.c) 中 ， 这 个 文件 被 编译 和 链接 到 每 个 程序 中 。 
一 个 独立 的 头 文件 (csapp.h) 中 包含 这 些 包 装 郴 数 的 函数 原型 。 

本 附录 给 出 了 一 个 关于 Unix 系统 中 不 同 种 类 的 错误 处 理 的 教程 ， 还 给 出 了 不 同 风格 
的 错误 处 理 包 装 函 数 的 示例 。csapp.h 和 csapp.c 文件 可 以 从 CS: APP 网 站 上 获得 。 


.A. 1 Unix 系统 中 的 错误 处 理 


本 书 中 我 们 过 到 的 系统 级 函数 调用 使 用 三 种 不 同 风格 的 返回 错误 : Unix 风格 的 、 
Posix 风格 的 和 GAI 风格 的 。 

1. Unix 风格 的 错误 处 理 

像 fork 和 wait 这 样 Unix 早期 开发 出 来 的 函数 (以 及 一 些 较 老 的 Posix 函数 ) 的 函数 
返回 值 既 包括 错误 代码 ， 也 包括 有 用 的 结果 。 例 如 ， 当 Unix 风格 的 wait 函数 遇 到 一 个 
错误 (例如 没有 子 进程 要 回收 )， 它 就 返回 一 1， 并 将 全 局 变量 errno 设置 为 指明 错误 原因 
的 错误 代码 。 如 果 wait 成 功 完成 ， 那 么 它 就 返回 有 用 的 结果 ， 也 就 是 回收 的 子 进程 的 
PID。Unix 风格 的 错误 处 理 代码 通常 具有 以 下 形式 : 


磺 


1 if ((pid = wait (NULL)) < 0) { 

2 fprintf(stderr, "wait error: %s\n", strerror(errno)); 

3 exit(0); 

4 上 

strerror 函数 返回 某 个 errno 值 的 文本 描述 。 

2. Posix 风格 的 错误 处 理 

许多 较 新 的 Posix 函数 ， 例 如 Pthread 函数 ， 只 用 返回 值 来 表明 成 功 (0) 或 者 失败 ( 非 
0) 。 任 何 有 用 的 结果 都 返回 在 通过 引用 传递 进来 的 函数 参数 中 。 我 们 称 这 种 方法 为 Posix 
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风格 的 错误 处 理 。 例 如 ，Posix 风格 的 pthread create 函数 用 它 的 返回 值 来 表明 成 功 或 
者 失败 ， 而 通过 引用 将 新 创建 的 线程 的 ID( 有 用 的 结果 ) 返 回放 在 它 的 第 一 个 参数 中 。Pos- 
ix 风格 的 错误 处 理 代 码 通常 具有 以 下 形式 : 


1 
yd 
EE 
4 


if ((retcode = pthread_create(&tid, NULL, thread, NULL)) != 0) { 


fprintf (stderr, "pthread_create error: %s\n", strerror(retcode)); 
exit (0); 


strerror 图 数 返 回 retcode 某 个 值 对 应 的 文本 描述 。 

3. GAI 风格 的 错误 处 理 

getaddrinfo(GAI) 和 getnameinfo 函数 成 功 时 返回 零 ， 失 败 时 返回 非 零 值 。GAI 
错误 处 理 代码 通常 具有 以 下 形式 : 


1 
如 
3 
4 


if ((retcode = getaddrinfo(host, service, &hints, &result)) != 0) { 


fprintf(stderr, "getaddrinfo error: %s\n", gai_strerror(retcode)); 
exit (0); 


gai_strerror 畏 数 返回 retcode 某 个 值 对 应 的 文本 描述 。 
4. 错误 报告 函数 小 结 
贯穿 本 书 ， 我们 使 用 下 列 错误 报告 函数 来 包容 不 同 的 错误 处 理 风 格 : 





#include "csapp.h" 


void unix_error(char *msg); 

void posix_error(int code, char *msg); 
void gai_error(int code, char *msg); 
void app_error(char *msg); 


返回 : 无 。 





正如 它们 的 名 字 表 明 的 那样 ，unix_error、posix_error 和 gai error 函数 报告 
Unix 风格 的 错误 、Posix 风格 的 错误 和 GAI 风格 的 错误 ， 然 后 终止 。 包 括 app_error 画 
数 是 为 了 方便 报告 应 用 错误 。 它 只 是 简单 地 打印 它 的 输入 ， 然 后 终止 。 图 A-1 展示 了 这 些 


错误 报告 函数 的 代码 。 
code/src/csapp.c 
1 void unix_error(char *msg) /* Unix-style error */ 
二 
3 fprintf (stderr, "%s: %s\n", msg, strerror(errno)); 
4 exit (0); 
5 二 
6 
7 void posix_error(int code, char *msg) /* Posix-style error */ 
8 荆 
9 fprintf(stderr, "%s: %s\n", msg, strerror(code)); 
10 exit (0); 
11 } 
讼 
13 void gai_error(int code, char *msg) /* Getaddrinfo-style error */ 


图 A-1 错误 报告 函数 
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14 

15 fprintf (stderr, "%s: %s\n", msg, gai_strerror(code)); 
16 exit(0); 

1 

18 

19 void app_error(char *msg) /* Application error */ 

20 【 

21 fprintf (stderr, "%s\n", msg); 

2 exit (0); 

及 二 


code/src/csapp.c 





A.2 错误 处 理 包 装 函 数 

下 面 是 一 些 不 同 错误 处 理 包 装 函 数 的 示例 : 

@ Unix 风格 的 错误 处 理 包 装 函 数 。 图 A-2 展示 了 Unix 风格 的 wait 函数 的 包装 函数 。 
如 果 wait 返回 一 个 错误 ， 包装 函数 打印 一 条 消息 ， 然 后 退出 。 否 则 ， 它 向 调用 者 
返回 一 个 PID。 图 A-3 展示 了 Unix 风格 的 kill 函数 的 包装 函数 。 注 意 ， 这 个 函数 
和 wait 不 同 ， 成 功 时 返回 void。 





code/src/csapp.c 
1 pid_t Wait(int *status) 
2 下 
3 pid_t pid; 
4 
5 if ((pid = wait(status)) < 0) 
6 unix_error("Wait error'"); 
7 return pid; 
8 了 
code/src/csapp.c 
A-2 ”Unix 风格 的 wait 函数 的 包装 函数 
code/src/csapp.c 
1 void Kill(pid_t pid, int signum) 
2 小 
3 In E63 
4 
5 if ((rc = kill(pid, signum)) < 0) 
6 unix_error("Kill error") ; 
”小 
code/src/csapp.c 


图 A-3 Unix 风格 的 kill 函数 的 包装 函数 
@ Posix 风格 的 错误 处 理 包装 函数 。 图 A-4 展示 了 Posix 风格 的 pthread_ detach 也 
数 的 包装 函数 。 同 大 多 数 Posix 风格 的 函数 一 样 ， 它 的 错误 返回 码 中 不 会 包含 有 用 
的 结果 ， 所 以 成 功 时 ， 包装 函数 返回 VOolids 
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co vewm 和 wh 一 


code/src/csapp.c 
1 void Pthread_detach(pthread _t tid) { 
2 nt TCs 
3 
4 if ((rc = pthread_detach(tid)) != 0) 
5 posix_error(rc, "Pthread_detach error") ; 
外 
code/src/csapp.c 


图 A-4 Posix 风格 的 pthread detach 函数 的 包装 函数 


@ GAI 风 格 的 错误 处 理 包 装 函 数 。 图 A-5 展示 了 GAI 风格 的 getadqrinfo 函数 的 包 
装 函数 。 





code/src/csapp.c 
void Getaddrinfo(const char *node, const char *service, 
const struct addrinfo *hints, struct addrinfo **res) 


{ 
int TEC;s 
if ((rc = getaddrinfo(node, service, hints, res)) != 0) 
gai_error(rc, "Getaddrinfo error'"); 
} 


code/src/csapp.c 
图 A-5 GAI 风格 的 getaddrinfo 函数 的 包装 函数 
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了 编写 高 性 能 、 可 移植 和 健 闪 的 程序 的 能 英 定 : 系统 、 编 译 、 计 算 机 体系 结构 等 专 
业 课 程 的 基础 。 北大 的 教学 实践 表明 ， 这 是 一 本 值得 推荐 采用 的 好 ; 教 桂 本 书 第 3 版 采用 最 新 x86-64 架 
构 来 贯穿 各 部 分 知识 。 我 相信 ， 该 书 的 出 版 将 有 助 于 国内 计 算 机 系统 教学 的 进一步 改进 ， 为 培养 从 事 





级 创新 的 计算 机 人 才 英 定 很 好 的 基础 
i Eb eb ES 
程 为 基础 ， 我 先后 在 复旦 大 学 和 上 海 交 通 大 学 软件 学 院 
千年 教师 全 部 是 waonbydne 学 改革 的 学 生 。 本 科 的 扎实 
ar 师资 力量 的 补充 又 为 推进 更 加 激进 的 教学 改革 





本 书 是 一 本 将 计算 机 软件 和 硬件 理论 结合 讲述 sn 论 、 体 系 结构 和 处 理 器 
设计 等 多 门 课程 。 本 书 的 最 大 优点 是 从 程序 员 的 角度 描述 计算 机 系统 的 实现 细节 ， 通 过 描述 程序 是 如 何 映 
sw WIRERGR 

和 第 2 版 相 比 ， 本 版 内 容 上 最 大 的 变化 是 ， 从 以 IA32 和 x86-64 为 基础 转变 为 完全 以 x86-64 为 基础 。 主 
要 更 新 如 下 ; 

@ 基于 x86-64， 大 量 地 重 写 代码 ， 首 次 介绍 对 处 理 浮 点 数据 的 程序 的 机 器 级 支持 。 

处 理 器 体系 结构 修改 为 支持 64 位 字 和 操作 的 设计 。 

引入 更 多 的 功能 单元 和 更 复杂 的 控制 逻辑 ， 使 基于 程序 数据 流 表示 的 程序 性 能 模型 预测 更 加 可 靠 。 
oes 
增加 了 对 信号 处 理 程序 更 细致 的 描述 ， 包 括 异步 信号 安全 的 函数 等 。 

采用 最 新 函数 ， ee 安全 的 网 络 编程 。 
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本 书 将 陆续 为 读者 提供 丰富 的 学 习 资 源 ， 
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